阿里巴巴国际发布多模态大模型Ovis2.5,推动视觉感知与深度推理新突破
模型概览
阿里巴巴国际于2025年8月26日正式发布新一代多模态大模型Ovis2.5,并宣布开源。该模型聚焦原生分辨率视觉感知、深度推理及高性价比场景设计,旨在进一步提升人工智能应用能力。
性能表现
- OpenCompass综合评分:Ovis2.5达到78.3分,较前代Ovis2显著提升,在同类开源模型中保持SOTA(State-of-the-Art)水平
- 参数规模:提供两个版本
- Ovis2.5-9B:在40B参数以下开源模型中排名第一,超越多个更大参数规模模型
- Ovis2.5-2B:综合得分73.9分,延续"小体积大能力"设计理念,特别适合边缘计算和资源受限场景
技术创新
架构设计
采用结构化嵌入对齐设计,包含三大核心组件:
- 动态分辨率视觉特征提取
- 视觉词汇模块实现视觉与文本结构对齐
- 基于Qwen3的强大语言处理能力
训练策略
实施精细化五阶段训练方案:
- 基础视觉预训练
- 多模态预训练
- 大规模指令微调
- 采用DPO和GRPO算法强化偏好对齐与推理能力
- 实现端到端训练速度提升3-4倍
数据工程
- 数据量较Ovis增加50%
- 重点增强视觉推理、图表、OCR和Grounding等关键领域
- 合成大量适配Qwen3的"思考"数据,激发模型反思与推理潜力
资源获取
模型代码和权重已发布于GitHub和Hugging Face平台,开发者可通过这些平台获取相关资源进行应用探索。
行业影响
Ovis2.5的发布标志着多模态大模型在视觉感知和深度推理能力上的重要突破,为AI在复杂场景下的应用提供了新的技术支撑。