AI-NEWS · 2025年 8月 27日

微软开源语音模型

微软开源VibeVoice TTS模型:支持90分钟超长语音与4人对话,中文表现惊艳

核心特性

超长语音生成能力

  • 时长突破:单次可生成90分钟连续语音
  • 应用场景:播客、有声书、教育内容制作
  • 优势对比:突破传统TTS模型的时间限制,为内容创作者提供更大灵活性

多人对话支持

  • 对话规模:支持最多4人的流畅对话
  • 技术优化:语音一致性和自然轮转优化
  • 应用场景:多人播客模拟、会议记录、虚拟角色互动
  • 效果评估:生成效果接近真人录音水平

中文语音合成卓越表现

  • 语言支持:专门优化中文语音合成
  • 性能指标
    • 语调自然度高
    • 发音准确度优秀
    • 整体自然度表现突出
  • 应用潜力:中文播客、教育培训、智能客服等本地化场景

背景音乐集成功能

  • 创新特性:支持生成带背景音乐的播客内容
  • 创作优势:可添加背景音效,创造沉浸式专业音频内容
  • 音效适配:支持轻松音乐到紧张氛围的无缝集成

开源与发布信息

  • 发布平台:GitHub
  • 发布日期:2025年8月26日
  • 开源许可:允许开发者自由获取和二次开发
  • 战略意义:降低高质量TTS技术使用门槛,为全球AI开发者社区注入新活力

应用前景

  • 用户群体:个人创作者和企业用户均可快速构建创新语音应用
  • 行业影响:为语音技术领域设立新的性能基准
  • 发展潜力:在长文本语音生成、多人对话和中文语音合成方面具有广阔应用前景

火龙果频道