MOSS-Speech开源:中国首个语音到语音大模型,绕过文本中间环节!
模型概述
复旦大学MOSS团队于2025年11月20日发布MOSS-Speech,这是中国首个端到端语音到语音对话系统。该模型已在Hugging Face Demo上线,并开源了权重和代码。
技术架构创新
- 层拆分架构:冻结原始MOSS文本大模型参数,新增三个专用层:
- 语音理解层
- 语义对齐层
- 神经声码器层
- 端到端处理:一次性完成语音问答、情感模仿和笑声生成,无需传统的ASR→LLM→TTS三阶段流水线
性能表现
客观指标
- ZeroSpeech2025无文本语音任务:
- 词错误率(WER):4.1%
- 情感识别准确率:91.2%
- 两项指标均超越Meta的SpeechGPT和Google AudioLM
主观评价
- 中文口语测试MOS评分:4.6分(接近人类录音的4.8分)
版本配置
- 48kHz超采样版本:高质量音频输出
- 16kHz轻量版本:
- 单张RTX4090可实现实时推理
- 延迟低于300ms
- 适合移动端部署
未来规划
- MOSS-Speech-Ctrl版本:预计2026年第一季度发布
- 支持语音指令动态调节语速、音色和情感强度
- 开源计划已确认
商业化进展
- 已开放商业许可
- 开发者可通过GitHub获取训练和微调脚本
- 支持本地完成私有语音克隆和角色音色转换
