AI-NEWS · 2026年 3月 3日

通义发布两语音模型

通义实验室发布两款语音大模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD 现已推出

发布日期:2026年3月2日
来源:AIbase Daily

核心摘要

2026年3月2日,通义实验室正式发布两款支持“FreeStyle”指令生成的语音大模型:Fun-CosyVoice3.5Fun-AudioGen-VD。此次发布标志着语音生成技术从依赖预设标签的传统范式,转向基于自然语言指令的新范式,实现了“一句话自由生成语音”的深度交互体验。

模型详解

1. Fun-CosyVoice3.5

  • 核心定位:专注于多语言复刻精细化表达
  • 关键升级
    • 语言扩展:新增支持泰语、印尼语等4种新语言
    • 技术引入:通过引入 DiffROGRPO 强化学习技术,显著提升了韵律和音质相似度。
    • 性能提升
      • 生僻字错误率从 15.2% 降至 5.3%
      • 首包延迟降低了 35%
  • 角色:是 CosyVoice 模型的升级版本。

2. Fun-AudioGen-VD

  • 核心定位:专注于声音设计场景建模
  • 关键功能
    • 支持通过指令对性别、情绪、空间声学等进行精准控制。
    • 能够模拟从“疯狂反派”到“嘈杂咖啡馆”等复杂的角色与背景音融合场景

行业影响与趋势分析

通义实验室此举将语音生成从单纯的转换工具升级为创作工具。这种描述性、可编程的数字表达能力,直接赋能影视、游戏、AI数字人等领域,在降低内容创作成本的同时,极大地拓展了人机交互的语义丰富度。

相关背景与数据

  1. 品牌整合:阿里巴巴已将其核心AI业务品牌统一为“Qwen”,原“通义千问”系列更名为“Qwen大模型”。通义实验室继续作为研发机构存在。
  2. 市场表现:Qwen系列模型在全球开源社区表现强劲,Qwen 3.5在Hugging Face等平台上位居前列,春节期间日活跃用户(DAU)激增940%
  3. 开发者生态:阿里巴巴云通过推出低至7.9元的AI编程订阅计划、“百炼”平台集成多模型自由切换等功能,降低开发者门槛,加速AGI战略落地。

总结

通义实验室发布的两款语音模型,通过“FreeStyle”自然语言指令控制,代表了语音AI向更灵活、更具创造性的交互范式演进。结合阿里巴巴在品牌统一、开源推进和开发者生态建设上的系列动作,显示出其在构建全面AI技术栈和生态系统方面的战略布局。

火龙果频道