SenseTime开源SenseNova-MARS：首个具备自主思考与行动能力的Agentic VLM模型

发布日期：2026年1月30日
来源：AIbase Daily

核心摘要

2026年1月30日，商汤科技（SenseTime）正式开源其首个支持动态视觉推理与图文搜索深度融合的Agentic VLM（具身智能视觉语言模型）——SenseNova-MARS。该模型提供8B和32B两个版本，通过模拟“侦探破案”逻辑，实现了AI从单纯“理解”到自主“执行”的突破。

在最新的行业基准测试中，SenseNova-MARS展现出卓越性能：

测试项目	SenseNova-MARS得分	GPT-5.2得分	关键表现
MMSearch（图文搜索核心评估）	74.27分	66.08分	位列榜首，显著领先
HR-MMSearch（高清细节搜索评估）	54.43分	–	与主流闭源模型拉开差距
FVQA、InfoSeek等权威视觉理解基准	SOTA（开源模型最佳）	–	在多维度能力验证中达到最优

SenseNova-MARS的独特之处在于其“自主规划”能力，可自动解决涉及“细节识别→信息检索→逻辑推理”的复杂长链任务：

商汤研究团队通过两阶段训练过程增强模型的逻辑链：

阶段	训练方法	目标
第一阶段（打基础）	使用自动化数据合成引擎构建“高难度案例库”，让AI学习基础的多跳搜索逻辑。	确保模型从真实复杂场景起步。
第二阶段（实战演练）	引入BN-GSPO算法进行强化学习，类似训练侦探，通过奖励机制平滑波动。	使模型在处理各类问题时保持稳定进步。

目前，商汤已全面开源SenseNova-MARS的模型、代码及数据集。开发者可通过Hugging Face直接下载，共同探索具身智能与自主智能体的无限可能。

AI模型发展：SenseNova-MARS作为首个Agentic VLM，标志着多模态大模型向自主推理迈进的新篇章。
市场预测：到2033年，全球建筑行业AI市场规模预计将从2026年的62亿美元增长至320亿美元，年复合增长率达26.4%，显示AI在各领域的渗透加速。
技术趋势：2025年中国“十大科技热词”中，“智能体”“具身AI”“AI治理”等入选，体现了行业对自主智能与伦理规范的共同关注。

ChatGPT Agent用户流失：OpenAI的ChatGPT Agent因定位模糊导致用户困惑，每周活跃付费用户数在六个月内从400万锐减75%至不足100万，面临停服。
蚂蚁集团发布LingBot-VLA：推出视觉-语言-动作基础模型，基于9台双臂机器人累计2万小时的真实数据训练，提升机器人操作能力。
开源项目更名：AI助手项目从Clawd、Moltbot更名为OpenClaw，解决商标问题后进入稳定阶段，GitHub星标数超10万。
巨头投资动向：英伟达、亚马逊和微软计划向OpenAI投资约6000亿美元，以应对与谷歌的竞争，其中英伟达可能出资3000亿美元。

注：本文基于AIbase Daily报道整理，聚焦SenseNova-MARS的核心信息，已移除广告、推广链接及无关内容。