Grab自研语言模型解决亚洲语言识别难题
核心要点
新加坡超级应用公司Grab在工程博客中分享了自研语言模型的经验,指出现有大语言模型在理解东南亚语言方面表现不佳。为解决这一问题,Grab成功开发了轻量级视觉大语言模型,在身份证、驾照等文档处理上取得显著进展。
背景与挑战
业务需求
Grab超级应用提供网约车、外卖、购物和金融服务,覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨和缅甸等国家。这些地区的文档通常使用非拉丁字母文字。
技术瓶颈
- 合规任务需求:客户身份验证需要从身份证、驾照、注册证书等文档中准确提取信息
- OCR系统局限:在处理多样化文档模板时效果不佳
- 现有模型问题:商业模型在理解东南亚语言时存在错误和延迟,开源视觉大模型效率较高但准确性不足
技术方案
模型选择
2025年,Grab选择阿里巴巴云的Qwen2-VL2B模型作为基础,原因包括:
- 模型大小适中
- 支持东南亚语言
- 能够动态处理不同分辨率的图像
数据处理
- 从Common Crawl提取东南亚语言内容
- 建立内部合成数据流水线,生成各种字体和背景下的文本图像
训练优化
- 使用低秩适应技术对Qwen2-VL进行微调
- 在处理印尼文档方面取得良好效果
- 针对泰语和越南语识别挑战,决定进行全参数微调
成果与优势
通过训练模型学习东南亚语言的独特视觉模式,Grab成功开发出:
- 轻量级视觉大语言模型
- 性能超越各种OCR工具和通用模型
- 证明高质量数据可使小型专业模型实现效率和效果
未来规划
Grab计划继续开发更多自研模型,以扩展文档处理技术能力,满足日益复杂的文档处理需求。
