AI-NEWS · 2026年 2月 13日

Seedance 2.0发布：5秒音视频融合

Seedance 2.0 正式发布：统一多模态架构，5秒音视频融合，引领工业级创作

发布日期：2026年2月12日
发布团队：字节跳动Seed团队
发布平台：即梦AI、豆包

核心概述

Seedance 2.0 是新一代视频创作模型，标志着AI视频生成从“单点突破”迈入“全面协同”的工业级应用阶段。其核心是采用了统一的多模态音视频联合生成架构。

关键技术突破

1. 物理理解能力跃升

对比版本：相较于Seedance 1.5。
核心改进：在复杂交互和运动场景中的可用性显著提升。
具体表现：
- 通过卓越的物理还原能力，克服了高难度动作（如双人花样滑冰、多人竞技）中的逻辑挑战。
- 确保了运动过程中的连续性与真实感。

2. 音视频一体化生成

生成时长：支持15秒高质量多角度输出。
音频技术：集成立体声双通道音频技术。
效果：实现音画同步的沉浸式视听体验。

3. 全模态输入与导演级控制

支持模态：文本、图像、音频、视频四种模态输入。
材料引用：允许用户同时引入最多9张图像及多个音视频材料作为参考。
控制精度：创作者可精确指定构图、镜头运动，甚至基于文本的故事板，实现“所想即所见”的精准控制。

4. 编辑与扩展能力

为匹配工业级创作流程，新增强大功能：

视频编辑：支持对特定片段或角色动作进行针对性修改。
视频扩展：可根据提示延续场景，具备“续拍”能力。
行业影响：大幅降低影视、广告、电商等领域的制作门槛与成本。

现状与评价

可用性：已在即梦AI和豆包平台上线。
团队自评：承认在多主体一致性和细节真实感方面仍有提升空间。
行业地位：其展现的多模态泛化能力已达到行业SOTA（顶尖）水平。

本文信息整理自AIbase Daily，发布日期为2026年2月12日。

火龙果频道

您可能还喜欢...