AI-NEWS · 2025年 8月 30日

AI语音革命

腾讯ARC实验室发布AudioStory技术：AI音频生成迎来叙事革命

技术突破

腾讯ARC实验室近期发布的AudioStory技术，彻底改变了AI音频生成的认知边界。这项技术不再局限于单一音效生成，而是让机器真正掌握了"讲故事"的艺术能力。

核心机制

分治策略：系统首先通过多模态大语言模型充当"理性大脑"，将复杂叙事分解为有序的音频事件序列
解耦连接机制：设计精确的"双语桥梁"——语义令牌传递宏观故事含义，残差令牌捕捉细微音频纹理
三阶段渐进训练：
1. 掌握基础单音频生成能力
2. 发展协同理解和生成能力
3. 统一处理长篇叙事音频

性能表现

研究团队专门构建了AudioStory-10K基准数据集，包含1万个精心标注的叙事音频样本。测试结果显示：

指令跟随能力比竞品高出17.85分
音频质量和时长匹配全面领先
一致性和连贯性指标表现优异

应用场景

视频配音：上传无声视频并描述音效风格，AI可自动生成同步的背景音轨
音频延续：基于给定音频片段智能推断后续场景，自动添加合理的音频延续
AI有声书：为智能播客、沉浸式游戏音效等领域开辟新路径

技术意义

AudioStory标志着文本到音频领域新时代的开始，从简单的声音模仿发展到复杂的叙事编织，证明了AI在创造性表达方面的无限潜力。

论文链接：AudioStory

发布日期：2025年8月29日

火龙果频道

您可能还喜欢...