Grab自研语言模型解决亚洲语言识别难题

核心要点

新加坡超级应用公司Grab在工程博客中分享了自研语言模型的经验，指出现有大语言模型在理解东南亚语言方面表现不佳。为解决这一问题，Grab成功开发了轻量级视觉大语言模型，在身份证、驾照等文档处理上取得显著进展。

背景与挑战

业务需求

Grab超级应用提供网约车、外卖、购物和金融服务，覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨和缅甸等国家。这些地区的文档通常使用非拉丁字母文字。

技术瓶颈

合规任务需求：客户身份验证需要从身份证、驾照、注册证书等文档中准确提取信息
OCR系统局限：在处理多样化文档模板时效果不佳
现有模型问题：商业模型在理解东南亚语言时存在错误和延迟，开源视觉大模型效率较高但准确性不足

技术方案

模型选择

2025年，Grab选择阿里巴巴云的Qwen2-VL2B模型作为基础，原因包括：

模型大小适中
支持东南亚语言
能够动态处理不同分辨率的图像

数据处理

从Common Crawl提取东南亚语言内容
建立内部合成数据流水线，生成各种字体和背景下的文本图像

训练优化

使用低秩适应技术对Qwen2-VL进行微调
在处理印尼文档方面取得良好效果
针对泰语和越南语识别挑战，决定进行全参数微调

成果与优势

通过训练模型学习东南亚语言的独特视觉模式，Grab成功开发出：

轻量级视觉大语言模型
性能超越各种OCR工具和通用模型
证明高质量数据可使小型专业模型实现效率和效果

未来规划

Grab计划继续开发更多自研模型，以扩展文档处理技术能力，满足日益复杂的文档处理需求。

火龙果频道

近期新闻

AI-NEWS · 2025年 11月 5日

Grab模型攻克亚洲语言识别难题

Grab自研语言模型解决亚洲语言识别难题

核心要点

背景与挑战

业务需求

技术瓶颈

技术方案

模型选择

数据处理

训练优化

成果与优势

未来规划

您可能还喜欢...

AI-NEWS · 2025年 11月 5日

Grab自研语言模型解决亚洲语言识别难题

核心要点

背景与挑战

业务需求

技术瓶颈

技术方案

模型选择

数据处理

训练优化

成果与优势

未来规划

您可能还喜欢...

中国发布百万级机器人数据集

Anthropic 代码被删，8100 个仓库“尸骨无存”

智谱 AI 融资 5 亿，“超级狗”真能走进你家？