AI-NEWS · 2026年 1月 24日

通义千问TTS革新语音合成

阿里云通义千问Qwen3-TTS:开源文本转语音模型实现97ms超低延迟,支持3秒语音克隆与一句话语音设计

发布日期:2026年1月23日
来源:AIbase Daily

概述

2026年1月22日晚,阿里巴巴通义千问团队正式开源了Qwen3-TTS系列语音生成模型。该系列采用端到端架构,支持秒级语音克隆、自然语言语音设计和实时流式输出,显著降低了实时语音AI应用的门槛。

核心技术创新:双轨架构实现超低延迟

Qwen3-TTS的核心创新在于其双轨混合流式生成机制,结合离散多码本语言模型,直接对语音进行端到端建模,避免了传统级联架构(如LMDiT)的信息瓶颈。

  • 实测端到端延迟低至97ms,仅需一个字符输入即可输出首个音频包。
  • 这种超低延迟特性使其特别适用于直播互动、实时翻译、AI客服等对延迟敏感的场景。

关键功能亮点

1. 3秒快速语音克隆与跨语言/方言零损失迁移

  • 仅需3秒参考音频即可实现高保真的零样本语音复制。
  • 克隆后的语音支持无缝跨语言迁移:一个中文语音可直接用于说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言,同时保留原语音特征。
  • 还能自然输出多种中文方言(如四川话、北京话),口音和表达高度准确,为多语言内容创作和本地化应用开辟了新可能。

2. 一句话语音设计

  • 用户可通过自然语言指令定制语音,例如:
    • “用温柔且带有鼓励感的成熟女声讲述一个故事”
    • “用高亢兴奋的年轻男声解说游戏”
  • 模型能自动调整语调、情感和节奏,生成高度个性化的表达。
  • 该功能在有声书制作中尤为实用,可实现一人分饰多角,掌握情感转折和方言变化,大幅提升沉浸感和制作效率。

模型规格与部署选择

Qwen3-TTS系列提供两种参数规模的模型,满足不同场景需求:

模型规格 特点 适用场景
1.7B 参数 性能最高,控制能力强 云端场景,对音质和表现力要求高
0.6B 参数 推理效率更优,资源消耗更低,合成质量仍出色 边缘设备或高并发部署

官方已在GitHub和Hugging Face开源完整系列(包括Base、VoiceDesign、CustomVoice等),支持全参数微调,方便开发者构建品牌专属语音身份。

行业影响

随着Qwen3-TTS的开源,实时、个性化、多语言的语音AI门槛被大幅降低。内容创作者、开发者和企业应用都将迎来语音交互革命的新浪潮。

项目地址Qwen3-TTS


本文由AIbase Daily团队整理。版权归AIbase所有。

火龙果频道