AI-NEWS · 2025年 11月 21日

MOSS-Speech开源

MOSS-Speech开源:中国首个语音到语音大模型,绕过文本中间环节!

模型概述

复旦大学MOSS团队于2025年11月20日发布MOSS-Speech,这是中国首个端到端语音到语音对话系统。该模型已在Hugging Face Demo上线,并开源了权重和代码。

技术架构创新

  • 层拆分架构:冻结原始MOSS文本大模型参数,新增三个专用层:
    • 语音理解层
    • 语义对齐层
    • 神经声码器层
  • 端到端处理:一次性完成语音问答、情感模仿和笑声生成,无需传统的ASR→LLM→TTS三阶段流水线

性能表现

客观指标

  • ZeroSpeech2025无文本语音任务
    • 词错误率(WER):4.1%
    • 情感识别准确率:91.2%
    • 两项指标均超越Meta的SpeechGPT和Google AudioLM

主观评价

  • 中文口语测试MOS评分:4.6分(接近人类录音的4.8分)

版本配置

  • 48kHz超采样版本:高质量音频输出
  • 16kHz轻量版本
    • 单张RTX4090可实现实时推理
    • 延迟低于300ms
    • 适合移动端部署

未来规划

  • MOSS-Speech-Ctrl版本:预计2026年第一季度发布
    • 支持语音指令动态调节语速、音色和情感强度
    • 开源计划已确认

商业化进展

  • 已开放商业许可
  • 开发者可通过GitHub获取训练和微调脚本
  • 支持本地完成私有语音克隆和角色音色转换

火龙果频道