Mistral AI发布全新语音转文本模型:主打超低延迟与高性价比
法国人工智能领军企业Mistral AI于2026年2月11日正式发布了两款全新的语音转文本(Speech-to-Text)模型,旨在重新定义转录速度、隐私保护和成本效益的行业标准。
发布模型概览
新发布的两款模型均属于Voxtral Transcribe2系统:
-
Voxtral Realtime(实时处理模型)
- 核心设计:专为实时音频流设计,采用创新的流式架构。
- 延迟表现:延迟可配置,最低可达200毫秒。在480毫秒延迟下,词错率仅为1-2%,几乎等同于离线转录的准确率。
- 模型规模:仅40亿(4B) 参数,支持在智能手机或笔记本电脑等本地设备上运行,极大保障了隐私安全。
- 开源与定价:已在Hugging Face平台以Apache 2.0许可证开源。API价格为0.006美元/分钟。
-
Voxtral Mini Transcribe2(批量处理模型)
- 核心设计:专为预录音频文件设计。
- 处理能力:支持单次请求最长3小时的音频,并提供准确的说话人标签和时间戳。
- 性能表现:在FLEURS词错率基准测试中表现出色。
- 定价:API价格仅为0.003美元/分钟,被Mistral AI称为当前市场上最具成本效益的转录解决方案。
关键特性与优势
- 卓越性能:实时模型延迟低至200毫秒,离线模型在词错率(WER)方面具有显著优势。
- 本地部署:轻量化设计(4B参数)支持本地设备运行,无需上传至云端,确保隐私安全。
- 高性价比:批量转录API价格低至0.003美元/分钟,力求在企业市场建立定价优势。
- 多语言支持:原生支持13种主要语言,包括中文、英语、法语、日语等,覆盖大多数商业应用场景。
体验方式
用户目前可通过以下平台体验新模型:
- Mistral AI的Audio Playground
- Le Chat助手
本文信息来源于AIbase,发布日期:2026年2月11日。
