AI-NEWS · 2026年 2月 6日

Mistral AI发布实时中文转录模型

Mistral AI 发布 Voxtral Transcribe 2 语音模型,支持实时中文转录,延迟低于0.2秒

发布日期:2026年2月5日
来源:AIbase

核心摘要

法国人工智能初创公司 Mistral AI 近日发布了全新的语音转文本模型系列——Voxtral Transcribe 2。该系列包含两款针对不同应用场景优化的模型,旨在解决语音交互中高延迟和高成本的痛点。

模型详情

1. Voxtral Realtime(实时转录模型)

  • 参数规模:40亿参数 (4B)
  • 核心特点:采用创新的流式架构,专注于极致的响应速度
  • 性能指标:官方数据显示,其转录延迟已降低至200毫秒(0.2秒)以下。这意味着在实时对话或同声传译场景中,用户几乎感觉不到处理停顿。
  • 开源情况:为促进开发者社区生态发展,Mistral AI 已根据 Apache 2.0 许可证正式开源该模型权重。

2. Voxtral Mini Transcribe V2(批量处理模型)

  • 核心特点:专注于大规模处理和高性价比,专为处理长音频设计。
  • 性能指标
    • 支持单次请求处理长达3小时的录音文件。
    • 在准确率上,Mistral官方称该模型已超越 GPT-4o mini TranscribeGemini 2.5 Flash

关键优势与数据

  1. 极低延迟:实时模型延迟 < 0.2秒,支持音频即时同步转录,并已开源。
  2. 高性价比
    • Mini版本在准确率上超越竞品。
    • 定价策略具有竞争力
      • 离线批量处理API:0.003美元/分钟
      • 实时性能优化API:0.006美元/分钟
  3. 多语言支持:全系列模型原生支持包括中文在内的13种主流语言,广泛适应全球化语音办公和实时交互场景。

行业影响

Voxtral Transcribe 2 的发布,特别是其实时模型的超低延迟和开源策略,预计将显著推动实时语音转录、同声传译、会议记录等应用的发展,并为开发者社区提供强大的工具基础。

火龙果频道