阿里通义发布双语音模型:支持“FreeStyle”自然语言指令控制
发布日期:2026年3月2日
来源:AIbase
核心摘要
阿里通义实验室语音团队发布了两款革命性的语音生成模型:Fun-CosyVoice3.5 和 Fun-AudioGen-VD。其最大亮点是支持 “FreeStyle”自然语言命令控制,用户无需复杂参数调整,仅通过自然语言描述即可精确控制语音表达风格或从零构建复杂音频场景。
模型详解
1. Fun-CosyVoice3.5:多语言复刻与细粒度控制
作为此前CosyVoice的升级版,核心突破在于语音表达的“理解能力”。
- 指令化生成:用户可输入如“说得更自信些”或“放慢语速,加入一些情感波动”等指令,模型将实时调整输出。
- 语言扩展:新增支持泰语、印尼语、葡萄牙语和越南语,在13种语言上保持转录准确率(WER)和音色相似度的行业领先性能。
- 生僻字优化:通过专项优化,生僻字错误率从 15.2% 显著降低至 5.3%。
- 性能提升:首包延迟降低 35%,极大提升了实时交互场景的流畅度。
2. Fun-AudioGen-VD:全场景声音设计
该模型更像一位“声音导演”,能够生成包含“角色+场景”的集成音频。
- 音色定制:支持指定性别、年龄、口音,甚至可细化到“沙哑、深沉或低沉”等特征。
- 情绪与角色:可模拟客服、播音员、儿童等角色,甚至能表达“外表平静但内心颤抖”等复杂心理状态。
- 环境沉浸:支持添加背景音(如战场嘈杂声、咖啡馆交谈声)和空间效果(如教堂回声、水下听觉感知),实现全面的空间模拟。
行业影响
通义实验室表示,这两款模型的发布将进一步降低高质量语音创作的门槛,为播客、游戏开发、影视后期制作等领域提供强大的AI支持。
本文由AIbase Daily团队整理。
