AI-NEWS · 2026年 2月 12日

Mistral发布超低延迟语音AI模型

Mistral AI发布全新语音转文本模型:主打超低延迟与高性价比

法国人工智能领军企业Mistral AI于2026年2月11日正式发布了两款全新的语音转文本(Speech-to-Text)模型,旨在重新定义转录速度、隐私保护和成本效益的行业标准。

发布模型概览

新发布的两款模型均属于Voxtral Transcribe2系统:

  1. Voxtral Realtime(实时处理模型)

    • 核心设计:专为实时音频流设计,采用创新的流式架构。
    • 延迟表现:延迟可配置,最低可达200毫秒。在480毫秒延迟下,词错率仅为1-2%,几乎等同于离线转录的准确率。
    • 模型规模:仅40亿(4B) 参数,支持在智能手机或笔记本电脑等本地设备上运行,极大保障了隐私安全。
    • 开源与定价:已在Hugging Face平台以Apache 2.0许可证开源。API价格为0.006美元/分钟
  2. Voxtral Mini Transcribe2(批量处理模型)

    • 核心设计:专为预录音频文件设计。
    • 处理能力:支持单次请求最长3小时的音频,并提供准确的说话人标签和时间戳。
    • 性能表现:在FLEURS词错率基准测试中表现出色。
    • 定价:API价格仅为0.003美元/分钟,被Mistral AI称为当前市场上最具成本效益的转录解决方案。

关键特性与优势

  • 卓越性能:实时模型延迟低至200毫秒,离线模型在词错率(WER)方面具有显著优势。
  • 本地部署:轻量化设计(4B参数)支持本地设备运行,无需上传至云端,确保隐私安全。
  • 高性价比:批量转录API价格低至0.003美元/分钟,力求在企业市场建立定价优势。
  • 多语言支持:原生支持13种主要语言,包括中文、英语、法语、日语等,覆盖大多数商业应用场景。

体验方式

用户目前可通过以下平台体验新模型:

  • Mistral AI的Audio Playground
  • Le Chat助手

本文信息来源于AIbase,发布日期:2026年2月11日。

火龙果频道