通义实验室发布两款语音大模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD 现已推出

发布日期：2026年3月2日
来源：AIbase Daily

核心摘要

2026年3月2日，通义实验室正式发布两款支持“FreeStyle”指令生成的语音大模型：Fun-CosyVoice3.5 和 Fun-AudioGen-VD。此次发布标志着语音生成技术从依赖预设标签的传统范式，转向基于自然语言指令的新范式，实现了“一句话自由生成语音”的深度交互体验。

模型详解

1. Fun-CosyVoice3.5

核心定位：专注于多语言复刻与精细化表达。
关键升级：
- 语言扩展：新增支持泰语、印尼语等4种新语言。
- 技术引入：通过引入 DiffRO 和 GRPO 强化学习技术，显著提升了韵律和音质相似度。
- 性能提升：
  - 生僻字错误率从 15.2% 降至 5.3%。
  - 首包延迟降低了 35%。
角色：是 CosyVoice 模型的升级版本。

2. Fun-AudioGen-VD

核心定位：专注于声音设计与场景建模。
关键功能：
- 支持通过指令对性别、情绪、空间声学等进行精准控制。
- 能够模拟从“疯狂反派”到“嘈杂咖啡馆”等复杂的角色与背景音融合场景。

行业影响与趋势分析

通义实验室此举将语音生成从单纯的转换工具升级为创作工具。这种描述性、可编程的数字表达能力，直接赋能影视、游戏、AI数字人等领域，在降低内容创作成本的同时，极大地拓展了人机交互的语义丰富度。

总结

通义实验室发布的两款语音模型，通过“FreeStyle”自然语言指令控制，代表了语音AI向更灵活、更具创造性的交互范式演进。结合阿里巴巴在品牌统一、开源推进和开发者生态建设上的系列动作，显示出其在构建全面AI技术栈和生态系统方面的战略布局。

火龙果频道

近期新闻

AI-NEWS · 2026年 3月 3日

通义发布两语音模型

通义实验室发布两款语音大模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD 现已推出

核心摘要

模型详解

1. Fun-CosyVoice3.5

2. Fun-AudioGen-VD

行业影响与趋势分析

相关背景与数据

总结

您可能还喜欢...

AI-NEWS · 2026年 3月 3日

通义实验室发布两款语音大模型：Fun-CosyVoice3.5 与 Fun-AudioGen-VD 现已推出

核心摘要

模型详解

1. Fun-CosyVoice3.5

2. Fun-AudioGen-VD

行业影响与趋势分析

相关背景与数据

总结

您可能还喜欢...

AI实时目标检测革新

AI公司营收腰斩裁员

谷歌与美联社合作推出实时信息聊天机器人Gemini