B站开源语音合成模型IndexTTS-2.0:支持情感与时长控制
核心发布
2025年9月11日,哔哩哔哩(B站)Index团队宣布完全开源其自主研发的文本转语音(TTS)系统——IndexTTS-2.0。该系统具备可控情感与可调时长功能,标志着零样本TTS技术在实际应用中的重要进展。
技术创新
1. 时间编码机制
- 首次应用于自回归TTS架构
- 显著提升语音时长控制精度
- 生成语音更稳定自然
- 实现语音节奏的精确控制
2. 语音与情感解耦建模
- 采用创新解耦建模方法
- 支持多种情感调节方式:
- 单音频参考
- 独立情感参考音频
- 情感向量
- 文本描述
- 大幅增强合成语音表现力
应用场景
IndexTTS-2.0可广泛应用于:
- AI配音
- 有声读物
- 动画漫画
- 视频翻译
- 语音对话
- 播客制作
全球化价值
- 为全球内容输出提供重要技术支持
- 实现跨语言视频"无差异"本地化体验
- 保留原声风格和情感的同时提供沉浸式听觉体验
- 降低高质量内容跨语言传播门槛
- 为AIGC技术全球落地奠定基础
资源开放
项目已同步发布:
- 研究论文
- 完整代码
- 模型权重
- 在线演示页面
IndexTTS团队表示将持续优化模型性能,与开发者社区共同推动多语言交流和全球文化连接的语音技术生态建设。
在线演示地址:可通过官方渠道获取