通义实验室发布两款语音大模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD 现已推出
发布日期:2026年3月2日
来源:AIbase Daily
核心摘要
2026年3月2日,通义实验室正式发布两款支持“FreeStyle”指令生成的语音大模型:Fun-CosyVoice3.5 和 Fun-AudioGen-VD。此次发布标志着语音生成技术从依赖预设标签的传统范式,转向基于自然语言指令的新范式,实现了“一句话自由生成语音”的深度交互体验。
模型详解
1. Fun-CosyVoice3.5
- 核心定位:专注于多语言复刻与精细化表达。
- 关键升级:
- 语言扩展:新增支持泰语、印尼语等4种新语言。
- 技术引入:通过引入 DiffRO 和 GRPO 强化学习技术,显著提升了韵律和音质相似度。
- 性能提升:
- 生僻字错误率从 15.2% 降至 5.3%。
- 首包延迟降低了 35%。
- 角色:是 CosyVoice 模型的升级版本。
2. Fun-AudioGen-VD
- 核心定位:专注于声音设计与场景建模。
- 关键功能:
- 支持通过指令对性别、情绪、空间声学等进行精准控制。
- 能够模拟从“疯狂反派”到“嘈杂咖啡馆”等复杂的角色与背景音融合场景。
行业影响与趋势分析
通义实验室此举将语音生成从单纯的转换工具升级为创作工具。这种描述性、可编程的数字表达能力,直接赋能影视、游戏、AI数字人等领域,在降低内容创作成本的同时,极大地拓展了人机交互的语义丰富度。
相关背景与数据
- 品牌整合:阿里巴巴已将其核心AI业务品牌统一为“Qwen”,原“通义千问”系列更名为“Qwen大模型”。通义实验室继续作为研发机构存在。
- 市场表现:Qwen系列模型在全球开源社区表现强劲,Qwen 3.5在Hugging Face等平台上位居前列,春节期间日活跃用户(DAU)激增940%。
- 开发者生态:阿里巴巴云通过推出低至7.9元的AI编程订阅计划、“百炼”平台集成多模型自由切换等功能,降低开发者门槛,加速AGI战略落地。
总结
通义实验室发布的两款语音模型,通过“FreeStyle”自然语言指令控制,代表了语音AI向更灵活、更具创造性的交互范式演进。结合阿里巴巴在品牌统一、开源推进和开发者生态建设上的系列动作,显示出其在构建全面AI技术栈和生态系统方面的战略布局。
