AI-NEWS · 2025年 12月 16日

阿里发布语音模型白灵

阿里巴巴发布新版语音模型“百灵”：3秒录音实现多语言与情感切换

2025年12月15日，阿里巴巴通义大模型宣布其“百灵”系列语音模型完成重大升级并正式开源。此次升级的核心在于，用户仅需提供3秒或更长的音频，即可实现语音克隆，并让模型在多种语言和情感间自由切换。

核心功能升级

1. 多语言与多方言支持

覆盖范围：模型可无缝切换至9种语言和18种方言，包括普通话、粤语、日语、英语等。
情感模拟：能够合成并模拟快乐、愤怒等多种情感语音。

2. 关键技术指标提升

本次升级涉及两个主要模型，性能均有显著优化：

Fun-CosyVoice3 模型：
- 首包延迟降低50%，大幅提升了语音交互的实时性。
- 中英双语语音准确性得到极大改善。
- 语音克隆能力增强，仅需3秒音频即可复刻音色并合成新语音。
Fun-ASR 模型：
- 在嘈杂环境下的识别准确率达到93%。
- 支持歌词、说唱识别，并允许多种语言自由混说，覆盖各类汉语方言与口音。
- 流式识别首字延迟降至160毫秒，显著提升交互流畅度。

开发与应用

部署与开发：两款模型均支持本地部署与二次开发，方便开发者进行个性化定制。
开源地址：模型代码已在GitHub平台开源，可供开发者及用户直接访问使用。

应用场景展望

升级后的模型将使实时语音助手、直播配音、无障碍阅读等场景变得更加高效便捷，进一步推动语音技术在各领域的应用普及。

信息来源：AIbase，发布时间：2025年12月15日

火龙果频道

您可能还喜欢...