AI-NEWS · 2025年 11月 5日

蚂蚁发布多语言视觉模型

蚂蚁集团发布多语言视觉大模型训练框架,高效识别文档伪造与逻辑矛盾

核心要点

蚂蚁集团旗下蚂蚁财富科技在香港金融科技周上发布了革命性的"多语言多模态大模型训练框架",旨在解决大模型在多语言环境中的应用瓶颈,并在文档防伪和逻辑矛盾识别方面取得突破性进展。

技术背景与挑战

  • 行业现状:随着人工智能技术快速发展,大模型正成为各行业提升效率的重要工具
  • 核心问题:传统以英语为主的大模型在少数语言环境中表现不佳,经常面临"语言混淆"和推理信息混乱等问题
  • 影响范围:这些问题严重限制了大模型的全球化应用

技术突破与性能表现

多语言能力突破

  • 测试基准:在多文化多语言视觉问答基准测试(CVQA)中表现优异
  • 语言覆盖:在埃及阿拉伯语、爪哇语、印尼语和巽他语等资源稀缺的少数语言上表现突出
  • 排名成绩:成功获得第一名

核心技术架构

  • 创新机制:采用"用目标语言思考"的语言感知优化框架
  • 技术组合
    • 细粒度多维度奖励策略
    • 自动化数据解决方案
  • 性能提升:相比同规模开源模型,在多语言视觉问答基准测试中准确率提升约9.5%

对标国际水平

在某些任务中,该框架甚至超越了GPT-4o和Gemini-2.5-flash等国际主流闭源模型,实现了总分第一的优异成绩。

安全能力创新

图像安全框架

  • 技术原理:结合视觉分析和常识推理的伪造检测
  • 核心功能
    • 高效识别图像中的视觉不一致性
    • 检测逻辑矛盾
    • 定位篡改区域
    • 提供可解释性分析
  • 应用价值:显著提升数字内容的风险控制能力

商业化应用

产品落地

  • 核心产品:ZOLOZ文档认证产品(RealDoc)
  • 语言支持:覆盖119种语言
  • 处理能力:高效处理多语言业务文档、合同和文件
  • 应用场景
    • 保险理赔
    • 信用审核
    • 跨境贸易

技术特点

  • 边缘计算:支持在笔记本电脑和浏览器上本地执行,无需云依赖
  • 部署灵活:适用于边缘设备应用场景

发布时间:2025年11月4日
来源:AIbase Daily

火龙果频道