AI-NEWS · 2025年 2月 21日

阿里开源Ovis2多模态大模型

阿里巴巴Ovis2多模态大模型开源分析报告

一、模型概览

发布时间：2025年2月21日
版本迭代：基于Ovis 1.6升级，新增视频/多图处理、复杂场景OCR及多语言能力
参数规模：开源6个版本（1B/2B/4B/8B/16B/34B），全系列达同尺寸SOTA水平

二、核心技术创新

架构设计
- 三模块架构：视觉分词器（图像分块→特征提取→概率化视觉token） + 视觉嵌入表 + 大语言模型（LLM）
- 模态融合：通过拼接视觉与文本嵌入向量实现跨模态理解
四阶段训练策略
- 阶段1：冻结LLM/ViT参数，训练视觉模块特征转换
- 阶段2：强化高分辨率图像理解与OCR能力
- 阶段3：对话式视觉描述数据对齐
- 阶段4：多模态指令微调与偏好学习
视频处理突破
- 关键帧选择算法：基于文本相关性、帧多样性、时序性的三维度优化
- 技术融合：高维相似度计算+DPP（行列式点过程）+MDP（马尔可夫决策）

三、性能表现

评估维度	Ovis2-34B表现	对比优势
多模态综合能力	OpenCompass开源模型第2名	参数量仅为70B模型的50%
多模态数学推理	开源模型第1名	超越主流70B旗舰模型
视频理解能力	细分领域排名领先	关键帧算法效率提升显著

四、开源生态与行业影响

技术开放：代码（GitHub）、模型（Hugging Face/Modelscope）、在线Demo同步开放
社区共建：通过开源推动多模态前沿探索，激发AI应用创新
论文支持：技术细节已在arXiv发布，提供完整研发路径参考

五、关键数据亮点

参数效率革命：34B模型以不足半数的参数量超越70B级竞品
训练深度优化：四阶段训练法使视觉模块特征提取效率提升300%（对比基线）
多模态覆盖度：支持视频+多图+文本+OCR复合任务处理
算法创新价值：关键帧选择算法降低视频处理算力消耗40%

火龙果频道

您可能还喜欢...