AI-NEWS · 2026年 1月 31日

商汤开源智能体模型

SenseTime开源SenseNova-MARS:首个具备自主思考与行动能力的Agentic VLM模型

发布日期:2026年1月30日
来源:AIbase Daily

核心摘要

2026年1月30日,商汤科技(SenseTime)正式开源其首个支持动态视觉推理与图文搜索深度融合的Agentic VLM(具身智能视觉语言模型)——SenseNova-MARS。该模型提供8B和32B两个版本,通过模拟“侦探破案”逻辑,实现了AI从单纯“理解”到自主“执行”的突破。


性能表现:多项基准测试超越GPT-5.2

在最新的行业基准测试中,SenseNova-MARS展现出卓越性能:

测试项目 SenseNova-MARS得分 GPT-5.2得分 关键表现
MMSearch(图文搜索核心评估) 74.27分 66.08分 位列榜首,显著领先
HR-MMSearch(高清细节搜索评估) 54.43分 与主流闭源模型拉开差距
FVQA、InfoSeek等权威视觉理解基准 SOTA(开源模型最佳) 在多维度能力验证中达到最优

核心技术:类人工具协作的“自主规划”能力

SenseNova-MARS的独特之处在于其“自主规划”能力,可自动解决涉及“细节识别→信息检索→逻辑推理”的复杂长链任务:

  1. 图像细节裁剪:能聚焦占图像比例不足5%的微小细节(如赛车服上的标识),并自动放大分析。
  2. 动态图文搜索:一旦识别出物体或人物,即自动匹配全球相关信息,如设备型号或行业数据。
  3. 多跳深度推理:不再困扰于“先放大、再识别、最后查背景信息”的任务,展现出强大的“工具使用直觉”。

训练方法:“量身教学”的双阶段演进

商汤研究团队通过两阶段训练过程增强模型的逻辑链:

阶段 训练方法 目标
第一阶段(打基础) 使用自动化数据合成引擎构建“高难度案例库”,让AI学习基础的多跳搜索逻辑。 确保模型从真实复杂场景起步。
第二阶段(实战演练) 引入BN-GSPO算法进行强化学习,类似训练侦探,通过奖励机制平滑波动。 使模型在处理各类问题时保持稳定进步。

开源计划:全面支持全球开发者

目前,商汤已全面开源SenseNova-MARS的模型、代码及数据集。开发者可通过Hugging Face直接下载,共同探索具身智能与自主智能体的无限可能。


行业背景与趋势

  • AI模型发展:SenseNova-MARS作为首个Agentic VLM,标志着多模态大模型向自主推理迈进的新篇章。
  • 市场预测:到2033年,全球建筑行业AI市场规模预计将从2026年的62亿美元增长至320亿美元,年复合增长率达26.4%,显示AI在各领域的渗透加速。
  • 技术趋势:2025年中国“十大科技热词”中,“智能体”“具身AI”“AI治理”等入选,体现了行业对自主智能与伦理规范的共同关注。

其他相关动态(2026年1月30日)

  1. ChatGPT Agent用户流失:OpenAI的ChatGPT Agent因定位模糊导致用户困惑,每周活跃付费用户数在六个月内从400万锐减75%至不足100万,面临停服。
  2. 蚂蚁集团发布LingBot-VLA:推出视觉-语言-动作基础模型,基于9台双臂机器人累计2万小时的真实数据训练,提升机器人操作能力。
  3. 开源项目更名:AI助手项目从Clawd、Moltbot更名为OpenClaw,解决商标问题后进入稳定阶段,GitHub星标数超10万。
  4. 巨头投资动向:英伟达、亚马逊和微软计划向OpenAI投资约6000亿美元,以应对与谷歌的竞争,其中英伟达可能出资3000亿美元。

:本文基于AIbase Daily报道整理,聚焦SenseNova-MARS的核心信息,已移除广告、推广链接及无关内容。

火龙果频道