AI-NEWS · 2026年 1月 8日

开源Veo 3发布

LTX-2 模型正式发布：开源版“Veo 3”到来，可一键生成20秒4K同步音视频

发布日期：2026年1月7日
来源：AIbase Daily

核心摘要

Lightricks 团队正式开源了 LTX-2 模型，这被认为是首个真正完整的开源音视频基础模型。该模型支持一次性生成长达 20秒 的 4K 高清视频，并实现了画面、声音、口型、环境音效及音乐的完美同步。其权重、完整训练代码、基准测试和工具包均已开源。

技术亮点

1. 音画同步生成

一体化生成：与传统模型需单独拼接音频不同，LTX-2 在单一流程中联合生成视觉与音频元素。
自然对齐：确保动作、对话、环境音效和音乐自然对齐，实测显示口型同步和表情渲染效果出色。
高规格输出：支持原生 4K 分辨率、最高 50fps 帧率。

2. 架构与功能

基础架构：基于 DiT 混合架构。
支持模式：
- 文生视频
- 图生视频
- 多关键帧控制
- 3D摄像机逻辑
- LoRA 微调
社区支持：ComfyUI 在发布首日（Day 0）即提供原生支持，提供了开箱即用的工作流。

3. 性能与优化

计算效率：相比前代及部分竞品，计算成本降低最高达 50%。
本地运行：针对 NVIDIA RTX 消费级显卡优化，量化版本进一步降低显存需求，可在 RTX 40 系列及以上显卡 流畅运行。
生成速度：社区反馈显示，生成10-20秒视频仅需数分钟，可实现实时预览。
扩展性：支持多GPU推理堆叠进行长序列扩展。

应用潜力

内容创作：适用于短片、广告、内容创作。
专业领域：在动画、营销、电影预可视化方面潜力强劲。
控制能力：支持 Canny、Depth、Pose 等视频到视频控制方式，结合关键帧驱动，可实现精准叙事和风格一致性。
生态前景：未来结合社区 LoRA 和插件扩展，该模型可能成为开源AI视频生态的核心引擎。

行业意义

LTX-2 的开源不仅是技术飞跃，更是AI视频民主化的关键一步。它填补了开源音视频联合生成的空白，有望加速本地AI工具的普及，标志着高端AI视频生成从云端封闭系统向本地开源民主化转变，显著降低了创作者门槛。

本文由AIbase Daily团队整理。关注AI前沿趋势与产品应用。

火龙果频道

您可能还喜欢...