AI-NEWS · 2025年 12月 29日

Meta发布3D重建新模型

Meta AI发布Pixio图像模型:以像素重建革新3D重建,性能超越DINOv3

核心摘要

Meta AI研究团队近期发布了一项关于图像模型Pixio的研究。该研究证明,即使采用更简单的训练路径,Pixio也能在深度估计和3D重建等复杂视觉任务中展现出卓越性能,打破了学术界此前认为掩码自编码器(MAE)技术在场景理解上不如DINOv2/DINOv3等复杂算法的传统认知。

技术原理与创新

1. 对MAE框架的深度改进

Pixio的核心逻辑源于对2021年MAE框架的深度改进:

  • 增强解码器:研究发现原设计中的弱解码器限制了编码器的性能,因此显著增强了解码器功能。
  • 扩大掩码区域:将小型掩码块替换为大的连续区域,迫使模型放弃简单的像素复制,转而真正“理解”图像中的物体共现、3D透视、反射等空间关系。
  • 引入多类别令牌:通过引入用于聚合全局属性的多个类别令牌,模型能更准确地捕捉场景类型、摄像机角度和光照信息。

2. 纯粹的训练策略

Pixio的训练策略体现了高度“纯粹性”,与为特定基准测试(如ImageNet)反复优化的DINOv3不同:

  • 数据源:从网络收集了20亿张图像进行训练。
  • 动态频率调整:降低了简单产品照片的权重,同时增加了复杂场景的训练频率。
  • 优势:这种不在测试集上“取巧”的方法,反而赋予了模型更强的可迁移性

性能数据对比

Pixio在多项指标上超越了参数更多的DINOv3模型,展现了其高效性。

对比维度 Pixio DINOv3 (ViT-g) 性能提升
参数量 6.31亿 8.41亿 参数更少
单目深度估计精度 领先 基准 提升16%
3D重建 (单图像 vs 八视图) 单图像训练结果 八视图训练结果 Pixio单图胜出
机器人学习领域成功率 78.4% 低于Pixio (对比DINOv2) 领先DINOv2

意义与展望

Pixio的突破证明,回归像素重建的本质,往往能带来更深刻的视觉理解。尽管研究团队承认手动掩码存在局限性,并计划探索视频预测方向,但Pixio目前已取得的成果足以对视觉模型的发展路径提供重要启示。


本文信息来源于AIbase,发布日期为2025年12月29日。

火龙果频道