AI-NEWS · 2025年 8月 2日

MOSS开源震撼登场

MOSS-TTSD：开源对话语音合成模型

项目背景

MOSS-TTSD是由清华大学语音与语言实验室（腾讯AI Lab）联合上海创智学院、复旦大学和Musi Intelligent共同开发的文本转语音对话模型，现已正式开源。该模型在AI语音合成技术领域实现了对话场景的重大突破。

技术架构

基础模型：基于Qwen3-1.7B-base模型
训练数据量：
- 单说话人语音数据：约100万小时
- 对话语音数据：40万小时
建模方法：采用离散语音序列建模方法

核心创新

XY-Tokenizer技术

采用两阶段多任务学习方法
使用8个RVQ码本
语音信号压缩至1kbps比特率
同时保留语义和声学信息

关键特性

多语言支持：中英文高表现力语音对话生成
长文本处理：支持最长960秒的超长语音生成
语音克隆：
- 零样本语音克隆能力
- 支持双人语音克隆（通过上传完整对话）
- 支持单人音频克隆
语音事件控制：可添加笑声等表达元素

性能表现

在客观中文指标上显著优于开源模型MoonCast
韵律和自然度表现出色
与字节跳动的Douba语音模型相比，在音调和节奏方面略有差距

应用场景

AI播客
有声书制作
影视配音
长访谈内容生成

开源信息

开源内容：模型权重、推理代码、API接口
开源平台：
- GitHub
- HuggingFace
使用权限：免费商用
配套资源：官方文档和在线演示体验

未来计划

团队计划进一步优化模型，重点提升多说话人场景下的语音切换准确性和情感表达能力。

火龙果频道

您可能还喜欢...