AI-NEWS · 2025年 10月 1日

机器人视觉大突破

机器人视觉实现重大突破!新模型助力AI理解三维世界,成功率提升31%

研究背景

在机器人技术领域,让人工智能真正"理解"三维世界一直是个具有挑战性的难题。传统的视觉语言模型主要依赖2D图像和文本数据进行训练,难以理解真实环境中的3D空间。

创新突破

上海交通大学和剑桥大学的研究团队最近提出了一种名为Evo-0的新型增强视觉语言动作模型。该模型通过轻量级方式注入3D几何先验知识,显著提升了机器人在复杂任务中的空间理解能力。

核心技术特点

  • 视觉几何基础模型:使用VGGT从多视角RGB图像中提取3D结构信息
  • 无需额外传感器:避免了对额外传感器或显式深度输入的需求
  • 跨注意力融合模块:有效结合2D视觉标记与3D标记
  • 增强空间感知:提升对空间布局和物体关系的理解能力

性能表现

模拟实验成果

在RLBench仿真实验中:

  • 在需要精细操作的5项任务中,比基准模型pi0成功率提高15%
  • 在开放VLA评估中,性能提升达31%

实际应用表现

在真实世界实验中:

  • 处理复杂空间任务表现出色
  • 包括目标居中、孔洞插入和密集抓取等任务
  • 平均成功率比基准模型提升28.88%

技术优势

  1. 灵活性高:保持训练效率的同时提升部署便利性
  2. 空间理解强:在理解和控制复杂空间关系方面具有显著优势
  3. 实用性强:为未来通用机器人策略提供了新的可行路径

研究意义

这项研究成果不仅引起了学术界的广泛关注,也为机器人领域的实际应用带来了新的可能性。

信息来源:AIbase Daily – 2024年9月30日发布

火龙果频道