跳至内容
Qwen3-VL在SpatialBench基准测试中登顶:空间推理达13.5分,创3D检测能力新纪录
核心成就
- 模型表现:阿里巴巴Qwen视觉模型在第三方空间推理基准SpatialBench中包揽前两名:
- Qwen3-VL:13.5分
- Qwen2.5-VL:12.9分
- 对比优势:显著超越Gemini 3.0 Pro Preview(9.6分)和GPT-5.1(7.5分)
- 人类基准:当前成绩距离人类基准80分仍有差距
SpatialBench基准特点
- 测试范围:专注于2D/3D空间、结构和路径推理
- 复杂任务:包括电路分析、CAD工程和分子生物学等
- 行业地位:被视为"具身智能试金石"
模型技术亮点
3D检测升级
- 新增旋转边界框输出和深度估计头
- 在遮挡场景中AP值提升18点
- 能够判断物体方向和视角变化
视觉编程能力
- 输入草图或10秒视频即可生成可执行的Python和OpenCV代码
- 实现"所见即所得"的编程体验
多样化规模
- 提供2B、4B、8B、32B密集模型
- 推出MoE版本:30B-A3B和235B-A22B
- 推理版本在32项核心能力上平均超越Gemini 2.5-Pro达6.4分
开源计划
- Qwen2.5-VL:已完全开源
- Qwen3-VL:预计2025年第二季度发布权重和工具链
- 同时推出Qwen App供免费体验
实际应用进展
当前部署
- 已进入概念验证阶段的应用场景:
- 空间定位误差:小于2厘米
未来规划
- 2026年将推出"视觉-动作"端到端模型
- 为机器人提供实时视觉伺服能力
相关信息
- 发布时间:2025年11月26日
- 数据来源:AIbase Daily团队
- 背景说明:该报道来自AIbase每日AI专栏,专注于为开发者提供AI领域技术趋势和创新应用信息
火龙果频道