AI-NEWS · 2025年 11月 5日

Grab模型攻克亚洲语言识别难题

Grab自研语言模型解决亚洲语言识别难题

核心要点

新加坡超级应用公司Grab在工程博客中分享了自研语言模型的经验,指出现有大语言模型在理解东南亚语言方面表现不佳。为解决这一问题,Grab成功开发了轻量级视觉大语言模型,在身份证、驾照等文档处理上取得显著进展。

背景与挑战

业务需求

Grab超级应用提供网约车、外卖、购物和金融服务,覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨和缅甸等国家。这些地区的文档通常使用非拉丁字母文字。

技术瓶颈

  • 合规任务需求:客户身份验证需要从身份证、驾照、注册证书等文档中准确提取信息
  • OCR系统局限:在处理多样化文档模板时效果不佳
  • 现有模型问题:商业模型在理解东南亚语言时存在错误和延迟,开源视觉大模型效率较高但准确性不足

技术方案

模型选择

2025年,Grab选择阿里巴巴云的Qwen2-VL2B模型作为基础,原因包括:

  • 模型大小适中
  • 支持东南亚语言
  • 能够动态处理不同分辨率的图像

数据处理

  • 从Common Crawl提取东南亚语言内容
  • 建立内部合成数据流水线,生成各种字体和背景下的文本图像

训练优化

  • 使用低秩适应技术对Qwen2-VL进行微调
  • 在处理印尼文档方面取得良好效果
  • 针对泰语和越南语识别挑战,决定进行全参数微调

成果与优势

通过训练模型学习东南亚语言的独特视觉模式,Grab成功开发出:

  • 轻量级视觉大语言模型
  • 性能超越各种OCR工具和通用模型
  • 证明高质量数据可使小型专业模型实现效率和效果

未来规划

Grab计划继续开发更多自研模型,以扩展文档处理技术能力,满足日益复杂的文档处理需求。

火龙果频道