AI-NEWS · 2026年 1月 24日

谷歌AI获四维视觉

Google DeepMind 发布D4RT：赋予AI四维视觉，穿透时空感知动态世界

概述

2026年1月23日，Google DeepMind公布了一项突破性研究成果：D4RT（Dynamic4D Reconstruction and Tracking）。这是一个全新的统一AI模型，将空间三维与时间第四维无缝整合，标志着AI视觉正式开启“四维全感知”时代。

技术突破：从“拼图模式”到“整体建模”

传统方法让AI从二维视频重建三维动态世界时，通常需要多个模型拼凑：分别负责计算深度、跟踪动作、测量相机视角等。这种方式不仅繁琐低效，还导致AI的理解碎片化。

D4RT采用了一种优雅的“基于查询”的架构，将复杂任务简化为一个核心问题：“在视频中，特定时间点、特定视角下，某个像素在三维空间中的确切位置是什么？”

性能表现：速度与深度双重飞跃

惊人的效率提升

速度比较：在性能测试中，D4RT比之前的技术基准快18到300倍。
处理时间：一段一分钟的视频，过去需要顶级算力分析十分钟，现在D4RT仅需5秒即可处理。
意义：AI首次具备在真实场景中实时构建四维地图的潜力。

视觉理解深度的突破

全时空像素跟踪
- 即使物体移出相机视野或被暂时遮挡，D4RT仍能通过其强大的内部世界模型预测其在三维时空中的运动轨迹。
即时云重建
- 无需重复迭代优化，即可生成整个场景的精确3D结构，仿佛“冻结时间”。
自适应镜头捕捉
- 通过自动对齐不同视角的快照，能准确重建相机自身的运动路径。

应用前景

D4RT的技术为多个领域带来革新可能：

机器人：实现灵活的障碍物避让。
增强现实（AR）眼镜：支持低延迟融合。
通用人工智能：助力构建真正具备物理世界知识的“通用AI”。

深层意义

这不仅是算法更新，更是让数字智能真正理解我们所在的流动、四维现实的重要一步。D4RT为AI感知世界描绘了一个新未来：从被动“看见”转向主动“理解”时空连续性。

信息来源：AIbase Daily，2026年1月23日发布。

火龙果频道

您可能还喜欢...