Mistral AI 发布 Voxtral Transcribe 2 语音模型,支持实时中文转录,延迟低于0.2秒
发布日期:2026年2月5日
来源:AIbase
核心摘要
法国人工智能初创公司 Mistral AI 近日发布了全新的语音转文本模型系列——Voxtral Transcribe 2。该系列包含两款针对不同应用场景优化的模型,旨在解决语音交互中高延迟和高成本的痛点。
模型详情
1. Voxtral Realtime(实时转录模型)
- 参数规模:40亿参数 (4B)
- 核心特点:采用创新的流式架构,专注于极致的响应速度。
- 性能指标:官方数据显示,其转录延迟已降低至200毫秒(0.2秒)以下。这意味着在实时对话或同声传译场景中,用户几乎感觉不到处理停顿。
- 开源情况:为促进开发者社区生态发展,Mistral AI 已根据 Apache 2.0 许可证正式开源该模型权重。
2. Voxtral Mini Transcribe V2(批量处理模型)
- 核心特点:专注于大规模处理和高性价比,专为处理长音频设计。
- 性能指标:
- 支持单次请求处理长达3小时的录音文件。
- 在准确率上,Mistral官方称该模型已超越 GPT-4o mini Transcribe 和 Gemini 2.5 Flash。
关键优势与数据
- 极低延迟:实时模型延迟 < 0.2秒,支持音频即时同步转录,并已开源。
- 高性价比:
- Mini版本在准确率上超越竞品。
- 定价策略具有竞争力:
- 离线批量处理API:0.003美元/分钟
- 实时性能优化API:0.006美元/分钟
- 多语言支持:全系列模型原生支持包括中文在内的13种主流语言,广泛适应全球化语音办公和实时交互场景。
行业影响
Voxtral Transcribe 2 的发布,特别是其实时模型的超低延迟和开源策略,预计将显著推动实时语音转录、同声传译、会议记录等应用的发展,并为开发者社区提供强大的工具基础。
