AI-NEWS · 2026年 1月 31日

商汤发布多模态推理模型

SenseTime发布SenseNova-MARS:开启多模态自主推理新篇章

概览

2026年1月29日,商汤科技(SenseTime)正式宣布开源其多模态自主推理模型SenseNova-MARS,并同步推出8B32B两个版本。该模型的发布标志着多模态大模型在自主推理领域迈出了关键一步。

技术突破:首个Agentic VLM模型

SenseNova-MARS在技术架构上实现了显著创新,成为业界首个将动态视觉推理与图文搜索能力融合的Agentic VLM(智能体视觉语言模型)。

  • 自主推理能力:模型不仅能理解图像内容,更具备类似智能体的自主规划与推理能力。
  • 深度集成:通过将实时搜索能力整合到视觉理解过程中,模型能够处理需要外部知识支持的复杂视觉任务。

行业影响与意义

商汤科技决定开源两个版本,旨在为全球开发者提供更灵活的研究工具:

  • 8B版本:在性能与效率之间取得平衡,适合部署在边缘设备或计算资源有限的环境中。
  • 32B版本:提供更强的逻辑推理能力,满足复杂行业应用的需求。

数据与深度观点

  1. 技术趋势:SenseNova-MARS的发布,表明多模态大模型的发展正从“感知理解”向“自主推理与决策”的智能体方向演进。将搜索能力内嵌于模型,是解决模型知识实时性与广度限制的有效路径。
  2. 开源策略:商汤在短期内连续开源多款模型(如2025年11月的SenseNova-SI系列),显示出其通过开源构建生态、推动技术普及并吸引开发者社区的明确战略。提供不同规模的版本,有助于技术在不同算力层级的快速落地。
  3. 行业竞争:在小米、字节跳动等公司也纷纷推出各自多模态模型的背景下,商汤通过强调模型的“自主推理”和“智能体”特性,试图在技术差异化上建立优势。32B版本瞄准复杂工业应用,可能意在争夺高端企业级市场。

背景关联

  • 2025年11月,商汤曾发布开源空间智能大模型SenseNova-SI系列(含2B和8B版本),在权威评测中性能超越GPT-5等国际顶级闭源模型。
  • 同期,小米开源了70亿参数的多模态模型MiMo-VL,并推出能联动智能家居的AI助手Miloco。
  • 2025年10月,字节跳动引擎公布了自研的多模态大模型,用于广告审核,声称可在10分钟内智能审核90%的广告素材。

火龙果频道