AI-NEWS · 2025年 2月 21日

阿里开源Ovis2多模态大模型

阿里巴巴Ovis2多模态大模型开源分析报告

一、模型概览

  • 发布时间:2025年2月21日
  • 版本迭代:基于Ovis 1.6升级,新增视频/多图处理、复杂场景OCR及多语言能力
  • 参数规模:开源6个版本(1B/2B/4B/8B/16B/34B),全系列达同尺寸SOTA水平

二、核心技术创新

  1. 架构设计

    • 三模块架构:视觉分词器(图像分块→特征提取→概率化视觉token) + 视觉嵌入表 + 大语言模型(LLM)
    • 模态融合:通过拼接视觉与文本嵌入向量实现跨模态理解
  2. 四阶段训练策略

    • 阶段1:冻结LLM/ViT参数,训练视觉模块特征转换
    • 阶段2:强化高分辨率图像理解与OCR能力
    • 阶段3:对话式视觉描述数据对齐
    • 阶段4:多模态指令微调与偏好学习
  3. 视频处理突破

    • 关键帧选择算法:基于文本相关性、帧多样性、时序性的三维度优化
    • 技术融合:高维相似度计算+DPP(行列式点过程)+MDP(马尔可夫决策)

三、性能表现

评估维度 Ovis2-34B表现 对比优势
多模态综合能力 OpenCompass开源模型第2名 参数量仅为70B模型的50%
多模态数学推理 开源模型第1名 超越主流70B旗舰模型
视频理解能力 细分领域排名领先 关键帧算法效率提升显著

四、开源生态与行业影响

  • 技术开放:代码(GitHub)、模型(Hugging Face/Modelscope)、在线Demo同步开放
  • 社区共建:通过开源推动多模态前沿探索,激发AI应用创新
  • 论文支持:技术细节已在arXiv发布,提供完整研发路径参考

五、关键数据亮点

  1. 参数效率革命:34B模型以不足半数的参数量超越70B级竞品
  2. 训练深度优化:四阶段训练法使视觉模块特征提取效率提升300%(对比基线)
  3. 多模态覆盖度:支持视频+多图+文本+OCR复合任务处理
  4. 算法创新价值:关键帧选择算法降低视频处理算力消耗40%

火龙果频道