AI-NEWS · 2025年 11月 21日

MOSS-Speech开源

MOSS-Speech开源：中国首个语音到语音大模型，绕过文本中间环节！

模型概述

复旦大学MOSS团队于2025年11月20日发布MOSS-Speech，这是中国首个端到端语音到语音对话系统。该模型已在Hugging Face Demo上线，并开源了权重和代码。

技术架构创新

层拆分架构：冻结原始MOSS文本大模型参数，新增三个专用层：
- 语音理解层
- 语义对齐层
- 神经声码器层
端到端处理：一次性完成语音问答、情感模仿和笑声生成，无需传统的ASR→LLM→TTS三阶段流水线

性能表现

客观指标

ZeroSpeech2025无文本语音任务：
- 词错误率(WER)：4.1%
- 情感识别准确率：91.2%
- 两项指标均超越Meta的SpeechGPT和Google AudioLM

主观评价

中文口语测试MOS评分：4.6分（接近人类录音的4.8分）

版本配置

48kHz超采样版本：高质量音频输出
16kHz轻量版本：
- 单张RTX4090可实现实时推理
- 延迟低于300ms
- 适合移动端部署

未来规划

MOSS-Speech-Ctrl版本：预计2026年第一季度发布
- 支持语音指令动态调节语速、音色和情感强度
- 开源计划已确认

商业化进展

已开放商业许可
开发者可通过GitHub获取训练和微调脚本
支持本地完成私有语音克隆和角色音色转换

火龙果频道

您可能还喜欢...