腾讯ARC实验室发布AudioStory技术:AI音频生成迎来叙事革命
技术突破
腾讯ARC实验室近期发布的AudioStory技术,彻底改变了AI音频生成的认知边界。这项技术不再局限于单一音效生成,而是让机器真正掌握了"讲故事"的艺术能力。
核心机制
- 分治策略:系统首先通过多模态大语言模型充当"理性大脑",将复杂叙事分解为有序的音频事件序列
- 解耦连接机制:设计精确的"双语桥梁"——语义令牌传递宏观故事含义,残差令牌捕捉细微音频纹理
- 三阶段渐进训练:
- 掌握基础单音频生成能力
- 发展协同理解和生成能力
- 统一处理长篇叙事音频
性能表现
研究团队专门构建了AudioStory-10K基准数据集,包含1万个精心标注的叙事音频样本。测试结果显示:
- 指令跟随能力比竞品高出17.85分
- 音频质量和时长匹配全面领先
- 一致性和连贯性指标表现优异
应用场景
- 视频配音:上传无声视频并描述音效风格,AI可自动生成同步的背景音轨
- 音频延续:基于给定音频片段智能推断后续场景,自动添加合理的音频延续
- AI有声书:为智能播客、沉浸式游戏音效等领域开辟新路径
技术意义
AudioStory标志着文本到音频领域新时代的开始,从简单的声音模仿发展到复杂的叙事编织,证明了AI在创造性表达方面的无限潜力。
论文链接:AudioStory
发布日期:2025年8月29日