SenseTime开源SenseNova-MARS:首个具备自主思考与行动能力的Agentic VLM模型
发布日期:2026年1月30日
来源:AIbase Daily
核心摘要
2026年1月30日,商汤科技(SenseTime)正式开源其首个支持动态视觉推理与图文搜索深度融合的Agentic VLM(具身智能视觉语言模型)——SenseNova-MARS。该模型提供8B和32B两个版本,通过模拟“侦探破案”逻辑,实现了AI从单纯“理解”到自主“执行”的突破。
性能表现:多项基准测试超越GPT-5.2
在最新的行业基准测试中,SenseNova-MARS展现出卓越性能:
| 测试项目 | SenseNova-MARS得分 | GPT-5.2得分 | 关键表现 |
|---|---|---|---|
| MMSearch(图文搜索核心评估) | 74.27分 | 66.08分 | 位列榜首,显著领先 |
| HR-MMSearch(高清细节搜索评估) | 54.43分 | – | 与主流闭源模型拉开差距 |
| FVQA、InfoSeek等权威视觉理解基准 | SOTA(开源模型最佳) | – | 在多维度能力验证中达到最优 |
核心技术:类人工具协作的“自主规划”能力
SenseNova-MARS的独特之处在于其“自主规划”能力,可自动解决涉及“细节识别→信息检索→逻辑推理”的复杂长链任务:
- 图像细节裁剪:能聚焦占图像比例不足5%的微小细节(如赛车服上的标识),并自动放大分析。
- 动态图文搜索:一旦识别出物体或人物,即自动匹配全球相关信息,如设备型号或行业数据。
- 多跳深度推理:不再困扰于“先放大、再识别、最后查背景信息”的任务,展现出强大的“工具使用直觉”。
训练方法:“量身教学”的双阶段演进
商汤研究团队通过两阶段训练过程增强模型的逻辑链:
| 阶段 | 训练方法 | 目标 |
|---|---|---|
| 第一阶段(打基础) | 使用自动化数据合成引擎构建“高难度案例库”,让AI学习基础的多跳搜索逻辑。 | 确保模型从真实复杂场景起步。 |
| 第二阶段(实战演练) | 引入BN-GSPO算法进行强化学习,类似训练侦探,通过奖励机制平滑波动。 | 使模型在处理各类问题时保持稳定进步。 |
开源计划:全面支持全球开发者
目前,商汤已全面开源SenseNova-MARS的模型、代码及数据集。开发者可通过Hugging Face直接下载,共同探索具身智能与自主智能体的无限可能。
行业背景与趋势
- AI模型发展:SenseNova-MARS作为首个Agentic VLM,标志着多模态大模型向自主推理迈进的新篇章。
- 市场预测:到2033年,全球建筑行业AI市场规模预计将从2026年的62亿美元增长至320亿美元,年复合增长率达26.4%,显示AI在各领域的渗透加速。
- 技术趋势:2025年中国“十大科技热词”中,“智能体”“具身AI”“AI治理”等入选,体现了行业对自主智能与伦理规范的共同关注。
其他相关动态(2026年1月30日)
- ChatGPT Agent用户流失:OpenAI的ChatGPT Agent因定位模糊导致用户困惑,每周活跃付费用户数在六个月内从400万锐减75%至不足100万,面临停服。
- 蚂蚁集团发布LingBot-VLA:推出视觉-语言-动作基础模型,基于9台双臂机器人累计2万小时的真实数据训练,提升机器人操作能力。
- 开源项目更名:AI助手项目从Clawd、Moltbot更名为OpenClaw,解决商标问题后进入稳定阶段,GitHub星标数超10万。
- 巨头投资动向:英伟达、亚马逊和微软计划向OpenAI投资约6000亿美元,以应对与谷歌的竞争,其中英伟达可能出资3000亿美元。
注:本文基于AIbase Daily报道整理,聚焦SenseNova-MARS的核心信息,已移除广告、推广链接及无关内容。
