MOSS-TTSD:开源对话语音合成模型
项目背景
MOSS-TTSD是由清华大学语音与语言实验室(腾讯AI Lab)联合上海创智学院、复旦大学和Musi Intelligent共同开发的文本转语音对话模型,现已正式开源。该模型在AI语音合成技术领域实现了对话场景的重大突破。
技术架构
- 基础模型:基于Qwen3-1.7B-base模型
- 训练数据量:
- 单说话人语音数据:约100万小时
- 对话语音数据:40万小时
- 建模方法:采用离散语音序列建模方法
核心创新
XY-Tokenizer技术
- 采用两阶段多任务学习方法
- 使用8个RVQ码本
- 语音信号压缩至1kbps比特率
- 同时保留语义和声学信息
关键特性
- 多语言支持:中英文高表现力语音对话生成
- 长文本处理:支持最长960秒的超长语音生成
- 语音克隆:
- 零样本语音克隆能力
- 支持双人语音克隆(通过上传完整对话)
- 支持单人音频克隆
- 语音事件控制:可添加笑声等表达元素
性能表现
- 在客观中文指标上显著优于开源模型MoonCast
- 韵律和自然度表现出色
- 与字节跳动的Douba语音模型相比,在音调和节奏方面略有差距
应用场景
- AI播客
- 有声书制作
- 影视配音
- 长访谈内容生成
开源信息
- 开源内容:模型权重、推理代码、API接口
- 开源平台:
- GitHub
- HuggingFace
- 使用权限:免费商用
- 配套资源:官方文档和在线演示体验
未来计划
团队计划进一步优化模型,重点提升多说话人场景下的语音切换准确性和情感表达能力。