AI-NEWS · 2026年 1月 24日

The Visual Limitation of Silicon-Based Life: Can Top-Level Large Models Outperform a 6-Year-Old Child in Visual Reasoning?

硅基生命的视觉局限:顶级大模型在视觉推理上能否超越6岁儿童?

核心发现

一项由UniPat AI、xbench、阿里巴巴、月之暗面(Moonshot AI)和StepZen等多家领先机构联合发布的新研究显示,当前顶级大模型在基础视觉推理任务上的表现,甚至难以达到6岁儿童的水平。

关键数据对比

  • 在该研究使用的视觉推理“闭卷考试”BabyVision基准测试中,即便是该领域领先的Gemini 3 Pro Preview模型,其能力也仅略高于3岁儿童
  • 在面对6岁儿童的认知水平时,大模型仍存在20%的能力差距

问题根源:“语言陷阱”

研究指出,核心问题在于大模型本质上是“语言动物”。它们在处理视觉信息时,倾向于先将图像“翻译”成文本描述,再进行逻辑推理。这种“迂回策略”在处理宏观概念时有效,但在处理无法用语言精确捕捉的视觉特征时(如微小的曲线偏差、复杂的几何交叉或细微的空间遮挡关系),信息在“翻译”过程中大量丢失。

大模型视觉推理的四大缺陷

研究团队通过BabyVision基准,将大模型的视觉缺陷归纳为四个维度:

  1. 缺失非语言的精细细节:大模型难以区分像素级的几何差异,在拼图匹配等任务中,常因无法“想象”形状的旋转和对齐而选错答案。
  2. 流形一致性丢失:在长距离连接或轨迹跟踪任务中,大模型像在迷宫中迷路的孩子,遇到路径交叉时容易“跑偏”,丢失原有的感知线索。
  3. 缺乏空间想象力:文本描述无法准确还原三维空间,导致大模型在推断积木的侧视图或被遮挡的体积时,频繁出现层数误数或投影错误。
  4. 视觉模式归纳能力弱:它们倾向于僵化地“统计属性”,而非理解变化模式,难以从少量视觉示例中抽象出深层的因果逻辑。

对具身智能的影响与进化路径

这一结论给当前火热的“具身智能”领域带来了压力。如果一个AI连6岁儿童周围的物理环境都无法准确识别,我们又如何期待它在真实的物理世界中安全地辅助人类?

为突破此瓶颈,研究者提出了两条进化路径:

  1. 引入强化学习(RLVR):利用显式的中间推理步骤,来缓解感知的不确定性。
  2. 拥抱原生多模态推理:让模型在像素空间内学习直接的“视觉计算”(如Sora 2所示),而非依赖语言作为中介。

启示

这项AI发展史上的“进化回测”研究提醒我们,通往通用人工智能(AGI)的道路,或许不在于更难的数学题,而在于6岁孩子能轻松掌握的拼图游戏之中。


发布日期:2026年1月23日
研究参与机构:UniPat AI, xbench, 阿里巴巴, 月之暗面 (Moonshot AI), StepZen
测试基准:BabyVision

火龙果频道