AI-NEWS · 2024年 11月 6日

新AI技术DELTA:像素级精准追踪速度快十倍

视频处理领域中三维运动追踪的最新进展

概述

在视频处理领域,从单镜头视频中高效地追踪三维运动一直是一个挑战性任务,尤其是在需要像素级别的精准追踪长序列时。传统方法面临多个挑战,并且通常只能追踪少数关键点,无法实现对整个场景的详细理解。

现有技术的问题

  1. 计算需求高:现有技术在处理长时间视频时难以保持高效。
  2. 长期跟踪问题:相机移动和物体遮挡等问题导致跟踪误差或不准确。

当前方法的优缺点

  • 光流技术:提供密集像素追踪,但在复杂场景中缺乏韧性。
  • 场景流:通过RGB-D数据或点云估计三维运动,但难以在长序列中高效应用。
  • 点追踪方法:捕捉运动轨迹并结合空间和时间注意力机制进行更平滑的跟踪,但由于计算成本高而难以实现密集监控。
  • 重建跟踪方法:使用变形场来估算运动,但在实时应用程序中不可行。

新技术DELTA

最近,来自马萨诸塞大学阿姆赫斯特分校、MIT-IBM Watson AI实验室和Snap Inc的研究团队提出了一种名为DELTA(Dense Efficient Long-range 3D Tracking for Any video)的方法。该方法专为高效追踪单镜头视频中的每个像素而设计。

关键创新

  1. 低分辨率跟踪:从低分辨率开始,采用空间-时间注意力机制,并应用基于注意的上采样器以获得高分辨率精度。
  2. 清晰运动边界上采样器:提高运动边界的清晰度。
  3. 高效的空间注意力架构:改善跟踪性能。
  4. 对数深度表示法:增强跟踪表现。

数据集与结果

DELTA在CVO和Kubric3D数据集上取得了领先的结果,AJ(平均Jaccard)和APD3D(三维位置差)等指标提高了10%以上。此外,在TAP-Vid3D和LSFOdyssey等基准测试中表现良好。

优点与挑战

  • 速度和准确性:比传统方法快八倍,同时保持行业领先的准确度。
  • 设计选择:对数深度表示法、空间注意力机制和基于注意的上采样显著提升了其在各种跟踪场景中的准确性和效率。
  • 长期遮挡问题:在长时间遮挡点方面可能面临挑战,但在几百帧的短视频中表现出色。

数据集与训练

DELTA使用Kubric数据集进行训练,该数据集中包含超过5600个视频,并采用结合2D坐标、深度和可见性损失函数的方法。在基准测试中,DELTA在长距离2D跟踪和密集3D跟踪方面表现出色。

结论

DELTA是一种高效的方法,能够追踪视频帧中的每个像素,在稠密的2D和3D追踪任务中实现了高精度和快速运行时间。该方法可能面临长期遮挡点的挑战,但在短视频中表现出最佳性能。未来单目深度估计研究的进步有望进一步提升其表现。

项目链接

Project Link


版权©2024 AIbase Base,点击查看原文。

Source:https://www.aibase.com/news/13047