AI-NEWS · 2026年 1月 24日

谷歌AI获四维视觉

Google DeepMind 发布D4RT:赋予AI四维视觉,穿透时空感知动态世界

概述

2026年1月23日,Google DeepMind公布了一项突破性研究成果:D4RT(Dynamic4D Reconstruction and Tracking)。这是一个全新的统一AI模型,将空间三维与时间第四维无缝整合,标志着AI视觉正式开启“四维全感知”时代。

技术突破:从“拼图模式”到“整体建模”

传统方法让AI从二维视频重建三维动态世界时,通常需要多个模型拼凑:分别负责计算深度、跟踪动作、测量相机视角等。这种方式不仅繁琐低效,还导致AI的理解碎片化。

D4RT采用了一种优雅的“基于查询”的架构,将复杂任务简化为一个核心问题:“在视频中,特定时间点、特定视角下,某个像素在三维空间中的确切位置是什么?”

性能表现:速度与深度双重飞跃

惊人的效率提升

  • 速度比较:在性能测试中,D4RT比之前的技术基准快18到300倍
  • 处理时间:一段一分钟的视频,过去需要顶级算力分析十分钟,现在D4RT仅需5秒即可处理。
  • 意义:AI首次具备在真实场景中实时构建四维地图的潜力。

视觉理解深度的突破

  1. 全时空像素跟踪

    • 即使物体移出相机视野或被暂时遮挡,D4RT仍能通过其强大的内部世界模型预测其在三维时空中的运动轨迹。
  2. 即时云重建

    • 无需重复迭代优化,即可生成整个场景的精确3D结构,仿佛“冻结时间”。
  3. 自适应镜头捕捉

    • 通过自动对齐不同视角的快照,能准确重建相机自身的运动路径。

应用前景

D4RT的技术为多个领域带来革新可能:

  • 机器人:实现灵活的障碍物避让。
  • 增强现实(AR)眼镜:支持低延迟融合。
  • 通用人工智能:助力构建真正具备物理世界知识的“通用AI”。

深层意义

这不仅是算法更新,更是让数字智能真正理解我们所在的流动、四维现实的重要一步。D4RT为AI感知世界描绘了一个新未来:从被动“看见”转向主动“理解”时空连续性。


信息来源:AIbase Daily,2026年1月23日发布。

火龙果频道