AI-NEWS · 2025年 8月 27日

微软开源语音模型

微软开源VibeVoice TTS模型：支持90分钟超长语音与4人对话，中文表现惊艳

核心特性

超长语音生成能力

时长突破：单次可生成90分钟连续语音
应用场景：播客、有声书、教育内容制作
优势对比：突破传统TTS模型的时间限制，为内容创作者提供更大灵活性

多人对话支持

对话规模：支持最多4人的流畅对话
技术优化：语音一致性和自然轮转优化
应用场景：多人播客模拟、会议记录、虚拟角色互动
效果评估：生成效果接近真人录音水平

中文语音合成卓越表现

语言支持：专门优化中文语音合成
性能指标：
- 语调自然度高
- 发音准确度优秀
- 整体自然度表现突出
应用潜力：中文播客、教育培训、智能客服等本地化场景

背景音乐集成功能

创新特性：支持生成带背景音乐的播客内容
创作优势：可添加背景音效，创造沉浸式专业音频内容
音效适配：支持轻松音乐到紧张氛围的无缝集成

开源与发布信息

发布平台：GitHub
发布日期：2025年8月26日
开源许可：允许开发者自由获取和二次开发
战略意义：降低高质量TTS技术使用门槛，为全球AI开发者社区注入新活力

应用前景

用户群体：个人创作者和企业用户均可快速构建创新语音应用
行业影响：为语音技术领域设立新的性能基准
发展潜力：在长文本语音生成、多人对话和中文语音合成方面具有广阔应用前景

火龙果频道

您可能还喜欢...