Mistral AI发布全新语音转文本模型：主打超低延迟与高性价比

法国人工智能领军企业Mistral AI于2026年2月11日正式发布了两款全新的语音转文本（Speech-to-Text）模型，旨在重新定义转录速度、隐私保护和成本效益的行业标准。

发布模型概览

新发布的两款模型均属于Voxtral Transcribe2系统：

Voxtral Realtime（实时处理模型）
- 核心设计：专为实时音频流设计，采用创新的流式架构。
- 延迟表现：延迟可配置，最低可达200毫秒。在480毫秒延迟下，词错率仅为1-2%，几乎等同于离线转录的准确率。
- 模型规模：仅40亿（4B） 参数，支持在智能手机或笔记本电脑等本地设备上运行，极大保障了隐私安全。
- 开源与定价：已在Hugging Face平台以Apache 2.0许可证开源。API价格为0.006美元/分钟。
Voxtral Mini Transcribe2（批量处理模型）
- 核心设计：专为预录音频文件设计。
- 处理能力：支持单次请求最长3小时的音频，并提供准确的说话人标签和时间戳。
- 性能表现：在FLEURS词错率基准测试中表现出色。
- 定价：API价格仅为0.003美元/分钟，被Mistral AI称为当前市场上最具成本效益的转录解决方案。

用户目前可通过以下平台体验新模型：

本文信息来源于AIbase，发布日期：2026年2月11日。