AI-NEWS · 2025年 11月 12日

Meta推多语言语音识别系统

Meta发布支持1600种语言的Omnilingual ASR语音识别系统

核心要点

突破性覆盖：Meta FAIR团队推出Omnilingual ASR系统，支持1600+种语言的语音识别，其中500种语言首次获得AI系统支持
技术目标：致力于构建"通用转录系统"，打破全球语言障碍
开源策略：基于Apache 2.0许可证开源，支持商业用途

系统性能表现

准确率数据

整体表现：在测试的1600种语言中，78种语言的字错误率低于10%
充分训练语言：拥有至少10小时训练音频的语言中，95% 达到字错误率<10%的标准
低资源语言：训练音频少于10小时的语言中，36% 仍能实现字错误率<10%

关键技术特性

"语言即用"功能

采用上下文学习技术
仅需少量配对音频和文本样本即可适配新语言
无需重新训练或大量计算资源
理论可扩展至5400+种语言

模型规格

参数规模：从3亿参数的轻量版到70亿参数的高精度版
技术基础：基于FAIR的PyTorch框架开发

配套资源发布

Omnilingual ASR语料库

包含350种代表性不足语言的转录语音数据
采用Creative Commons (CC-BY)许可协议
旨在支持开发者为特定本地需求构建语音识别模型

行业意义

该系统填补了全球7000多种语言中大多数语言缺乏AI支持的空白，为之前无法获得语音识别技术的社区提供了实用解决方案。

火龙果频道

您可能还喜欢...