LTX-2

LTX-2

文生视频图生视频

AI应用

应用大小：80 GB
适用资源：4090 24G
主系统：Ubuntu 24.04
应用环境：Docker v570.86.10 | CUDA v12.8 | Conda v25.11.1 | Docker v29.1.3 | Python v3.13.11 | JupyterLab v4.5.0 | FileBrower v2.52.0 | LogViewer v1.0

应用介绍：

音视频统一生成的工业级视觉引擎

免费启动应用

说明文档

LTX-2

LTX-2 是由 Lightricks 团队开发的下一代视频生成基座模型。它是业内首个在单一神经网络中实现音视频同步生成的开源方案，能够同时产出具有逻辑关联的画面与环境音、对白及配乐，标志着 AI 视频进入了“音画一体”的新时代。

核心技术突破

非对称双流 DiT 架构：LTX-2 拥有 190 亿（19B）总参数量，其中 14B 参数用于处理复杂的视觉时空动力学，5B 参数专注于音频的时间演化。这种设计在确保画面精细度的同时，避免了音频通路的过度冗余。
原生音画对齐 (Native A/V Sync)：不同于传统视频生成后叠加音效的方案，LTX-2 在去噪过程中通过跨模态注意力机制让音频与画面同步演化。无论是人物说话的口型、物体碰撞的声音，还是环境氛围感，都能实现毫秒级的物理对应。
超高清与高帧率：原生支持 4K 分辨率输出，并提供高达 50FPS 的极高帧率。这使得生成的动作平滑且自然，彻底告别了传统 AI 视频的“果冻感”和闪烁问题。
基于 Gemma-3 的深层语义理解：采用最新的 Gemma-3 作为文本编码器，能够精准理解复杂的叙事指令、镜头语言、角色情感以及环境光效。

核心功能亮点

全模式生成 (T2V & I2V)：支持纯文字驱动生成，也支持以单张或多张关键帧图片为引导，实现高度可控的图像转视频。
深度摄影机控制：内置 3D 相机逻辑，配合官方提供的 Camera LoRA，用户可以像专业导演一样控制推、拉、摇、移等复杂的影视级镜头运动。
长序列生成与扩展：支持生成长达 20 秒的连贯视频，并具备向前或向后无限扩展（Video Extension）的能力。
多模态控制适配 (IC-LoRA)：支持深度图（Depth）、边缘检测（Canny）和人体姿态（Pose）等引导信息，满足专业级的内容生产需求。

适用群体

独立电影人与短剧导演：快速构建包含环境音与初步对白的分镜片段，大幅缩短预演周期。
广告与营销机构：利用 4K 高保真画质，低成本产出具备商业质感的宣发素材。
游戏开发者：为游戏过场动画或 NPC 交互生成具有沉浸感音效的动态资产。
开源社区极客：利用其开放的权重和完整的训练框架，开发垂直行业的定制化视频应用。

联系我们