AI-NEWS · 2025年 12月 6日

微软开源实时语音模型

微软开源实时语音模型 VibeVoice-Realtime-0.5B：300毫秒实时响应，支持90分钟长音频无中断

发布日期：2024年12月5日
来源：AIbase Daily

核心亮点

微软近期悄然开源了一款名为 VibeVoice-Realtime-0.5B 的实时语音合成模型。该模型以其极低的延迟、出色的长文本处理能力和多角色对话支持，被视为当前开源文本转语音领域的“黑马”。

关键性能与特性

1. 超低延迟：300毫秒启动语音

响应速度：从输入文本到发出第一个语音，平均仅需 300毫秒。
行业对比：远低于传统TTS模型常见的1-3秒延迟，实现了“近零延迟”的实时对话体验。

2. 强大的长文本处理能力

参数规模：尽管模型参数量仅为 0.5B（5亿），但其性能出众。
连续生成：可一次性生成长达 90分钟 的连续音频，且不会出现减速、失真或重复。
实测验证：已在HuggingFace平台通过测试，有用户输入《三体》第一章全文，模型能流畅读完且无失真。

3. 多角色对话与情感表达

多角色支持：原生支持最多 4个角色 同时对话，每个角色能保持音色、语速和语调的独立与稳定，适合模拟播客、访谈等场景。
情感感知：内置情感感知模块，可根据文本语义自动添加相应情绪（如歉意、兴奋、愤怒），无需手动添加情感标签。

4. 语言支持与轻量化设计

语言：支持中英文混合朗读。英文表现接近商用水平，中文发音准确自然，但在多音字和轻音处理上仍有提升空间。官方表示后续将发布专门优化的中文版本。
资源占用：模型轻量化，推理时显存占用低于 2GB，可在普通笔记本电脑上实现全实时速度运行，易于集成到手机、边缘设备及本地AI助手、阅读App、实时同传工具中。

技术细节与生态

开源协议：模型已在 HuggingFace 和 GitHub 上完全开源，采用 MIT许可证，支持商业用途。
社区应用：社区已涌现多种应用演示，例如将其用于制作“打字即读”的微信语音输入工具，或直接对接大模型以实现端到端的实时语音对话。

行业观点

AIbase Daily 评论指出，在开源社区竞相推出10B参数级别TTS模型时，微软以0.5B的小模型实现了接近商用水平的实时、自然、长文本及多角色功能，此举堪称“降维打击”。此举可能促使国内科技巨头做出相应反应。

项目地址：VibeVoice-Realtime-0.5B

火龙果频道

您可能还喜欢...