阿里云通义千问Qwen3-TTS：开源文本转语音模型实现97ms超低延迟，支持3秒语音克隆与一句话语音设计

发布日期：2026年1月23日
来源：AIbase Daily

概述

2026年1月22日晚，阿里巴巴通义千问团队正式开源了Qwen3-TTS系列语音生成模型。该系列采用端到端架构，支持秒级语音克隆、自然语言语音设计和实时流式输出，显著降低了实时语音AI应用的门槛。

Qwen3-TTS的核心创新在于其双轨混合流式生成机制，结合离散多码本语言模型，直接对语音进行端到端建模，避免了传统级联架构（如LMDiT）的信息瓶颈。

仅需3秒参考音频即可实现高保真的零样本语音复制。
克隆后的语音支持无缝跨语言迁移：一个中文语音可直接用于说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言，同时保留原语音特征。
还能自然输出多种中文方言（如四川话、北京话），口音和表达高度准确，为多语言内容创作和本地化应用开辟了新可能。

Qwen3-TTS系列提供两种参数规模的模型，满足不同场景需求：

模型规格	特点	适用场景
1.7B 参数	性能最高，控制能力强	云端场景，对音质和表现力要求高
0.6B 参数	推理效率更优，资源消耗更低，合成质量仍出色	边缘设备或高并发部署

官方已在GitHub和Hugging Face开源完整系列（包括Base、VoiceDesign、CustomVoice等），支持全参数微调，方便开发者构建品牌专属语音身份。

随着Qwen3-TTS的开源，实时、个性化、多语言的语音AI门槛被大幅降低。内容创作者、开发者和企业应用都将迎来语音交互革命的新浪潮。

项目地址：Qwen3-TTS

本文由AIbase Daily团队整理。版权归AIbase所有。