LTX-2 模型正式发布:开源版“Veo 3”到来,可一键生成20秒4K同步音视频
发布日期:2026年1月7日
来源:AIbase Daily
核心摘要
Lightricks 团队正式开源了 LTX-2 模型,这被认为是首个真正完整的开源音视频基础模型。该模型支持一次性生成长达 20秒 的 4K 高清视频,并实现了画面、声音、口型、环境音效及音乐的完美同步。其权重、完整训练代码、基准测试和工具包均已开源。
技术亮点
1. 音画同步生成
- 一体化生成:与传统模型需单独拼接音频不同,LTX-2 在单一流程中联合生成视觉与音频元素。
- 自然对齐:确保动作、对话、环境音效和音乐自然对齐,实测显示口型同步和表情渲染效果出色。
- 高规格输出:支持原生 4K 分辨率、最高 50fps 帧率。
2. 架构与功能
- 基础架构:基于 DiT 混合架构。
- 支持模式:
- 文生视频
- 图生视频
- 多关键帧控制
- 3D摄像机逻辑
- LoRA 微调
- 社区支持:ComfyUI 在发布首日(Day 0)即提供原生支持,提供了开箱即用的工作流。
3. 性能与优化
- 计算效率:相比前代及部分竞品,计算成本降低最高达 50%。
- 本地运行:针对 NVIDIA RTX 消费级显卡优化,量化版本进一步降低显存需求,可在 RTX 40 系列及以上显卡 流畅运行。
- 生成速度:社区反馈显示,生成10-20秒视频仅需数分钟,可实现实时预览。
- 扩展性:支持多GPU推理堆叠进行长序列扩展。
应用潜力
- 内容创作:适用于短片、广告、内容创作。
- 专业领域:在动画、营销、电影预可视化方面潜力强劲。
- 控制能力:支持 Canny、Depth、Pose 等视频到视频控制方式,结合关键帧驱动,可实现精准叙事和风格一致性。
- 生态前景:未来结合社区 LoRA 和插件扩展,该模型可能成为开源AI视频生态的核心引擎。
行业意义
LTX-2 的开源不仅是技术飞跃,更是AI视频民主化的关键一步。它填补了开源音视频联合生成的空白,有望加速本地AI工具的普及,标志着高端AI视频生成从云端封闭系统向本地开源民主化转变,显著降低了创作者门槛。
本文由AIbase Daily团队整理。关注AI前沿趋势与产品应用。
