AI-NEWS · 2025年 12月 16日

阿里发布语音模型白灵

阿里巴巴发布新版语音模型“百灵”:3秒录音实现多语言与情感切换

2025年12月15日,阿里巴巴通义大模型宣布其“百灵”系列语音模型完成重大升级并正式开源。此次升级的核心在于,用户仅需提供3秒或更长的音频,即可实现语音克隆,并让模型在多种语言和情感间自由切换。

核心功能升级

1. 多语言与多方言支持

  • 覆盖范围:模型可无缝切换至9种语言18种方言,包括普通话、粤语、日语、英语等。
  • 情感模拟:能够合成并模拟快乐、愤怒等多种情感语音。

2. 关键技术指标提升

本次升级涉及两个主要模型,性能均有显著优化:

  • Fun-CosyVoice3 模型

    • 首包延迟降低50%,大幅提升了语音交互的实时性。
    • 中英双语语音准确性得到极大改善。
    • 语音克隆能力增强,仅需3秒音频即可复刻音色并合成新语音。
  • Fun-ASR 模型

    • 在嘈杂环境下的识别准确率达到93%
    • 支持歌词、说唱识别,并允许多种语言自由混说,覆盖各类汉语方言与口音。
    • 流式识别首字延迟降至160毫秒,显著提升交互流畅度。

开发与应用

  • 部署与开发:两款模型均支持本地部署二次开发,方便开发者进行个性化定制。
  • 开源地址:模型代码已在GitHub平台开源,可供开发者及用户直接访问使用。

应用场景展望

升级后的模型将使实时语音助手、直播配音、无障碍阅读等场景变得更加高效便捷,进一步推动语音技术在各领域的应用普及。


信息来源:AIbase,发布时间:2025年12月15日

火龙果频道