Mistral AI 发布 Voxtral Transcribe 2 语音模型，支持实时中文转录，延迟低于0.2秒

发布日期：2026年2月5日
来源：AIbase

核心摘要

法国人工智能初创公司 Mistral AI 近日发布了全新的语音转文本模型系列——Voxtral Transcribe 2。该系列包含两款针对不同应用场景优化的模型，旨在解决语音交互中高延迟和高成本的痛点。

核心特点：专注于大规模处理和高性价比，专为处理长音频设计。
性能指标：
- 支持单次请求处理长达3小时的录音文件。
- 在准确率上，Mistral官方称该模型已超越 GPT-4o mini Transcribe 和 Gemini 2.5 Flash。

极低延迟：实时模型延迟 < 0.2秒，支持音频即时同步转录，并已开源。
高性价比：
- Mini版本在准确率上超越竞品。
- 定价策略具有竞争力：
  - 离线批量处理API：0.003美元/分钟
  - 实时性能优化API：0.006美元/分钟
多语言支持：全系列模型原生支持包括中文在内的13种主流语言，广泛适应全球化语音办公和实时交互场景。

Voxtral Transcribe 2 的发布，特别是其实时模型的超低延迟和开源策略，预计将显著推动实时语音转录、同声传译、会议记录等应用的发展，并为开发者社区提供强大的工具基础。