AI-NEWS · 2025年 11月 27日

Qwen3-VL登顶空间推理榜

Qwen3-VL在SpatialBench基准测试中登顶:空间推理达13.5分,创3D检测能力新纪录

核心成就

  • 模型表现:阿里巴巴Qwen视觉模型在第三方空间推理基准SpatialBench中包揽前两名:
    • Qwen3-VL:13.5分
    • Qwen2.5-VL:12.9分
  • 对比优势:显著超越Gemini 3.0 Pro Preview(9.6分)和GPT-5.1(7.5分)
  • 人类基准:当前成绩距离人类基准80分仍有差距

SpatialBench基准特点

  • 测试范围:专注于2D/3D空间、结构和路径推理
  • 复杂任务:包括电路分析、CAD工程和分子生物学等
  • 行业地位:被视为"具身智能试金石"

模型技术亮点

3D检测升级

  • 新增旋转边界框输出和深度估计头
  • 在遮挡场景中AP值提升18点
  • 能够判断物体方向和视角变化

视觉编程能力

  • 输入草图或10秒视频即可生成可执行的Python和OpenCV代码
  • 实现"所见即所得"的编程体验

多样化规模

  • 提供2B、4B、8B、32B密集模型
  • 推出MoE版本:30B-A3B和235B-A22B
  • 推理版本在32项核心能力上平均超越Gemini 2.5-Pro达6.4分

开源计划

  • Qwen2.5-VL:已完全开源
  • Qwen3-VL:预计2025年第二季度发布权重和工具链
  • 同时推出Qwen App供免费体验

实际应用进展

当前部署

  • 已进入概念验证阶段的应用场景:
    • 物流机器人
    • AR装配
    • 智能港口
  • 空间定位误差:小于2厘米

未来规划

  • 2026年将推出"视觉-动作"端到端模型
  • 为机器人提供实时视觉伺服能力

相关信息

  • 发布时间:2025年11月26日
  • 数据来源:AIbase Daily团队
  • 背景说明:该报道来自AIbase每日AI专栏,专注于为开发者提供AI领域技术趋势和创新应用信息

火龙果频道