AI-NEWS · 2025年 11月 12日

Meta推多语言语音识别系统

Meta发布支持1600种语言的Omnilingual ASR语音识别系统

核心要点

  • 突破性覆盖:Meta FAIR团队推出Omnilingual ASR系统,支持1600+种语言的语音识别,其中500种语言首次获得AI系统支持
  • 技术目标:致力于构建"通用转录系统",打破全球语言障碍
  • 开源策略:基于Apache 2.0许可证开源,支持商业用途

系统性能表现

准确率数据

  • 整体表现:在测试的1600种语言中,78种语言的字错误率低于10%
  • 充分训练语言:拥有至少10小时训练音频的语言中,95% 达到字错误率<10%的标准
  • 低资源语言:训练音频少于10小时的语言中,36% 仍能实现字错误率<10%

关键技术特性

"语言即用"功能

  • 采用上下文学习技术
  • 仅需少量配对音频和文本样本即可适配新语言
  • 无需重新训练或大量计算资源
  • 理论可扩展至5400+种语言

模型规格

  • 参数规模:从3亿参数的轻量版到70亿参数的高精度版
  • 技术基础:基于FAIR的PyTorch框架开发

配套资源发布

Omnilingual ASR语料库

  • 包含350种代表性不足语言的转录语音数据
  • 采用Creative Commons (CC-BY)许可协议
  • 旨在支持开发者为特定本地需求构建语音识别模型

行业意义

该系统填补了全球7000多种语言中大多数语言缺乏AI支持的空白,为之前无法获得语音识别技术的社区提供了实用解决方案。

火龙果频道