小红书发布新一代对话合成模型FireRedTTS-2,助力AI播客制作
模型概述
小红书智创音频技术团队于2025年9月15日正式推出新一代对话合成模型FireRedTTS-2,标志着对话生成技术的又一重要突破。该模型旨在解决现有对话合成方案中的多个痛点,包括灵活性差、发音错误频繁、说话人切换不稳定以及韵律自然度不足等问题。
核心技术升级
FireRedTTS-2对其核心模块进行了全面升级,特别是在离散语音编码器和文本转语音合成模型方面。通过采用双Transformer模型架构,显著提升了合成语音的自然度和连贯性。
关键技术创新
- 低帧率离散语音编码器:提高合成速度和稳定性
- 多语言支持:支持中文、英文、日文、韩文和法文
- 小样本语音克隆:仅需每个说话人提供一句语音样本即可模仿其声音和说话习惯
性能表现
在多项主客观评估中,FireRedTTS-2展现出业界领先的性能表现:
- 能够精准捕捉重音、情感和停顿等细节
- 生成自然流畅的音频质量
- 在开源对话生成领域具有显著竞争力
应用场景
该模型不仅能够生成高质量的播客音频,还支持:
- 多说话人对话自动生成
- 语音定制化应用
- 工业级AI播客解决方案
未来发展
技术团队计划继续优化模型,包括:
- 增加支持的说话人数量
- 扩展语言支持范围
- 探索更多可控音效插入功能
技术资源
模型的技术报告已发布在arXiv上,并提供专门的Demo体验和代码链接供开发者使用。
发布时间:2025年9月15日
开发团队:小红书智创音频技术团队