阿里巴巴发布新版语音模型“百灵”:3秒录音实现多语言与情感切换
2025年12月15日,阿里巴巴通义大模型宣布其“百灵”系列语音模型完成重大升级并正式开源。此次升级的核心在于,用户仅需提供3秒或更长的音频,即可实现语音克隆,并让模型在多种语言和情感间自由切换。
核心功能升级
1. 多语言与多方言支持
- 覆盖范围:模型可无缝切换至9种语言和18种方言,包括普通话、粤语、日语、英语等。
- 情感模拟:能够合成并模拟快乐、愤怒等多种情感语音。
2. 关键技术指标提升
本次升级涉及两个主要模型,性能均有显著优化:
-
Fun-CosyVoice3 模型:
- 首包延迟降低50%,大幅提升了语音交互的实时性。
- 中英双语语音准确性得到极大改善。
- 语音克隆能力增强,仅需3秒音频即可复刻音色并合成新语音。
-
Fun-ASR 模型:
- 在嘈杂环境下的识别准确率达到93%。
- 支持歌词、说唱识别,并允许多种语言自由混说,覆盖各类汉语方言与口音。
- 流式识别首字延迟降至160毫秒,显著提升交互流畅度。
开发与应用
- 部署与开发:两款模型均支持本地部署与二次开发,方便开发者进行个性化定制。
- 开源地址:模型代码已在GitHub平台开源,可供开发者及用户直接访问使用。
应用场景展望
升级后的模型将使实时语音助手、直播配音、无障碍阅读等场景变得更加高效便捷,进一步推动语音技术在各领域的应用普及。
信息来源:AIbase,发布时间:2025年12月15日
