说明文档
LTX-2
LTX-2 是由 Lightricks 团队开发的下一代视频生成基座模型。它是业内首个在单一神经网络中实现音视频同步生成的开源方案,能够同时产出具有逻辑关联的画面与环境音、对白及配乐,标志着 AI 视频进入了“音画一体”的新时代。
核心技术突破
- 非对称双流 DiT 架构:LTX-2 拥有 190 亿(19B)总参数量,其中 14B 参数用于处理复杂的视觉时空动力学,5B 参数专注于音频的时间演化。这种设计在确保画面精细度的同时,避免了音频通路的过度冗余。
- 原生音画对齐 (Native A/V Sync):不同于传统视频生成后叠加音效的方案,LTX-2 在去噪过程中通过跨模态注意力机制让音频与画面同步演化。无论是人物说话的口型、物体碰撞的声音,还是环境氛围感,都能实现毫秒级的物理对应。
- 超高清与高帧率:原生支持 4K 分辨率输出,并提供高达 50FPS 的极高帧率。这使得生成的动作平滑且自然,彻底告别了传统 AI 视频的“果冻感”和闪烁问题。
- 基于 Gemma-3 的深层语义理解:采用最新的 Gemma-3 作为文本编码器,能够精准理解复杂的叙事指令、镜头语言、角色情感以及环境光效。
核心功能亮点
- 全模式生成 (T2V & I2V):支持纯文字驱动生成,也支持以单张或多张关键帧图片为引导,实现高度可控的图像转视频。
- 深度摄影机控制:内置 3D 相机逻辑,配合官方提供的 Camera LoRA,用户可以像专业导演一样控制推、拉、摇、移等复杂的影视级镜头运动。
- 长序列生成与扩展:支持生成长达 20 秒的连贯视频,并具备向前或向后无限扩展(Video Extension)的能力。
- 多模态控制适配 (IC-LoRA):支持深度图(Depth)、边缘检测(Canny)和人体姿态(Pose)等引导信息,满足专业级的内容生产需求。
适用群体
- 独立电影人与短剧导演:快速构建包含环境音与初步对白的分镜片段,大幅缩短预演周期。
- 广告与营销机构:利用 4K 高保真画质,低成本产出具备商业质感的宣发素材。
- 游戏开发者:为游戏过场动画或 NPC 交互生成具有沉浸感音效的动态资产。
- 开源社区极客:利用其开放的权重和完整的训练框架,开发垂直行业的定制化视频应用。

