AI-NEWS · 2025年 8月 30日

AI语音革命

腾讯ARC实验室发布AudioStory技术:AI音频生成迎来叙事革命

技术突破

腾讯ARC实验室近期发布的AudioStory技术,彻底改变了AI音频生成的认知边界。这项技术不再局限于单一音效生成,而是让机器真正掌握了"讲故事"的艺术能力。

核心机制

  • 分治策略:系统首先通过多模态大语言模型充当"理性大脑",将复杂叙事分解为有序的音频事件序列
  • 解耦连接机制:设计精确的"双语桥梁"——语义令牌传递宏观故事含义,残差令牌捕捉细微音频纹理
  • 三阶段渐进训练
    1. 掌握基础单音频生成能力
    2. 发展协同理解和生成能力
    3. 统一处理长篇叙事音频

性能表现

研究团队专门构建了AudioStory-10K基准数据集,包含1万个精心标注的叙事音频样本。测试结果显示:

  • 指令跟随能力比竞品高出17.85分
  • 音频质量和时长匹配全面领先
  • 一致性和连贯性指标表现优异

应用场景

  • 视频配音:上传无声视频并描述音效风格,AI可自动生成同步的背景音轨
  • 音频延续:基于给定音频片段智能推断后续场景,自动添加合理的音频延续
  • AI有声书:为智能播客、沉浸式游戏音效等领域开辟新路径

技术意义

AudioStory标志着文本到音频领域新时代的开始,从简单的声音模仿发展到复杂的叙事编织,证明了AI在创造性表达方面的无限潜力。

论文链接AudioStory

发布日期:2025年8月29日

火龙果频道