AI-NEWS · 2025年 8月 2日

MOSS开源震撼登场

MOSS-TTSD:开源对话语音合成模型

项目背景

MOSS-TTSD是由清华大学语音与语言实验室(腾讯AI Lab)联合上海创智学院、复旦大学和Musi Intelligent共同开发的文本转语音对话模型,现已正式开源。该模型在AI语音合成技术领域实现了对话场景的重大突破。

技术架构

  • 基础模型:基于Qwen3-1.7B-base模型
  • 训练数据量
    • 单说话人语音数据:约100万小时
    • 对话语音数据:40万小时
  • 建模方法:采用离散语音序列建模方法

核心创新

XY-Tokenizer技术

  • 采用两阶段多任务学习方法
  • 使用8个RVQ码本
  • 语音信号压缩至1kbps比特率
  • 同时保留语义和声学信息

关键特性

  1. 多语言支持:中英文高表现力语音对话生成
  2. 长文本处理:支持最长960秒的超长语音生成
  3. 语音克隆
    • 零样本语音克隆能力
    • 支持双人语音克隆(通过上传完整对话)
    • 支持单人音频克隆
  4. 语音事件控制:可添加笑声等表达元素

性能表现

  • 在客观中文指标上显著优于开源模型MoonCast
  • 韵律和自然度表现出色
  • 与字节跳动的Douba语音模型相比,在音调和节奏方面略有差距

应用场景

  • AI播客
  • 有声书制作
  • 影视配音
  • 长访谈内容生成

开源信息

  • 开源内容:模型权重、推理代码、API接口
  • 开源平台
    • GitHub
    • HuggingFace
  • 使用权限:免费商用
  • 配套资源:官方文档和在线演示体验

未来计划

团队计划进一步优化模型,重点提升多说话人场景下的语音切换准确性和情感表达能力。

火龙果频道