AI-NEWS · 2025年 9月 16日

小红书发布AI播客模型

小红书发布新一代对话合成模型FireRedTTS-2,助力AI播客制作

模型概述

小红书智创音频技术团队于2025年9月15日正式推出新一代对话合成模型FireRedTTS-2,标志着对话生成技术的又一重要突破。该模型旨在解决现有对话合成方案中的多个痛点,包括灵活性差、发音错误频繁、说话人切换不稳定以及韵律自然度不足等问题。

核心技术升级

FireRedTTS-2对其核心模块进行了全面升级,特别是在离散语音编码器和文本转语音合成模型方面。通过采用双Transformer模型架构,显著提升了合成语音的自然度和连贯性。

关键技术创新

  • 低帧率离散语音编码器:提高合成速度和稳定性
  • 多语言支持:支持中文、英文、日文、韩文和法文
  • 小样本语音克隆:仅需每个说话人提供一句语音样本即可模仿其声音和说话习惯

性能表现

在多项主客观评估中,FireRedTTS-2展现出业界领先的性能表现:

  • 能够精准捕捉重音、情感和停顿等细节
  • 生成自然流畅的音频质量
  • 在开源对话生成领域具有显著竞争力

应用场景

该模型不仅能够生成高质量的播客音频,还支持:

  • 多说话人对话自动生成
  • 语音定制化应用
  • 工业级AI播客解决方案

未来发展

技术团队计划继续优化模型,包括:

  • 增加支持的说话人数量
  • 扩展语言支持范围
  • 探索更多可控音效插入功能

技术资源

模型的技术报告已发布在arXiv上,并提供专门的Demo体验和代码链接供开发者使用。

发布时间:2025年9月15日
开发团队:小红书智创音频技术团队

火龙果频道