SpatialTrackerV2: 3D Point Tracking Made Easy

📄 arXiv: 2507.12462v2 📥 PDF

作者: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou

分类: cs.CV

发布日期: 2025-07-16 (更新: 2025-07-19)

备注: International Conference on Computer Vision, ICCV 2025. Huggingface Demo: https://huggingface.co/spaces/Yuxihenry/SpatialTrackerV2, Code: https://github.com/henry123-boy/SpaTrackerV2


💡 一句话要点

SpatialTrackerV2:简易的单目视频3D点云追踪方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D点云追踪 单目视频 深度估计 相机位姿估计 端到端学习 运动估计 机器人视觉

📋 核心要点

  1. 现有3D追踪方法依赖模块化流程,性能受限于各个模块的精度和耦合性。
  2. SpatialTrackerV2将点云追踪、单目深度估计和相机位姿估计统一到端到端框架中。
  3. 该方法在多种数据集上训练,性能超越现有3D追踪方法30%,速度提升50倍。

📝 摘要(中文)

SpatialTrackerV2是一种用于单目视频的前馈3D点云追踪方法。它超越了基于现成组件构建的模块化3D追踪流程,将点云追踪、单目深度估计和相机位姿估计之间的内在联系统一到一个高性能的前馈3D点云追踪器中。该方法将世界坐标系中的3D运动分解为场景几何、相机自身运动和像素级物体运动,采用完全可微和端到端架构,从而可以在包括合成序列、带位姿的RGB-D视频和无标签的真实场景视频等各种数据集上进行可扩展的训练。通过从这种异构数据中联合学习几何和运动,SpatialTrackerV2的性能比现有的3D追踪方法高出30%,并且在运行速度快50倍的同时,达到了领先的动态3D重建方法的精度。

🔬 方法详解

问题定义:现有3D点云追踪方法通常采用模块化的pipeline,依赖于独立的深度估计、相机位姿估计和点云匹配等模块。这些模块之间的误差会累积,导致整体性能下降。此外,模块化的设计也限制了模型整体的优化和泛化能力。

核心思路:SpatialTrackerV2的核心思路是将3D点云追踪问题分解为场景几何、相机自身运动和像素级物体运动三个部分,并通过一个端到端的神经网络来联合学习这三个部分。通过这种方式,模型可以更好地利用不同信息之间的关联性,从而提高追踪的准确性和鲁棒性。

技术框架:SpatialTrackerV2的整体架构是一个前馈神经网络,输入是单目视频帧,输出是3D点云的运动轨迹。该网络包含三个主要模块:1) 深度估计模块,用于估计每一帧的深度图;2) 相机位姿估计模块,用于估计相机在每一帧的位姿;3) 点云运动估计模块,用于估计每个3D点在每一帧的运动。这三个模块通过可微的方式连接在一起,形成一个端到端的训练pipeline。

关键创新:SpatialTrackerV2的关键创新在于其端到端的架构和联合学习策略。与传统的模块化方法相比,SpatialTrackerV2可以更好地利用不同信息之间的关联性,从而提高追踪的准确性和鲁棒性。此外,SpatialTrackerV2还采用了可微的渲染技术,使得模型可以直接从3D点云的运动轨迹中学习,而无需人工标注。

关键设计:SpatialTrackerV2使用了Transformer网络进行特征提取和关联,损失函数包括深度估计损失、相机位姿估计损失和点云运动估计损失。为了提高模型的泛化能力,SpatialTrackerV2在多种数据集上进行了训练,包括合成数据、RGB-D数据和无标签的真实场景数据。具体网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpatialTrackerV2在多个数据集上进行了评估,结果表明该方法在3D点云追踪的准确性和速度方面均优于现有方法。具体而言,SpatialTrackerV2的性能比现有3D追踪方法高出30%,并且在运行速度快50倍的同时,达到了领先的动态3D重建方法的精度。这些结果表明SpatialTrackerV2是一种非常有竞争力的3D点云追踪方法。

🎯 应用场景

SpatialTrackerV2可应用于机器人导航、自动驾驶、增强现实等领域。该方法能够准确、高效地追踪3D点云的运动轨迹,为这些应用提供可靠的环境感知能力。未来,该方法有望进一步扩展到更复杂的场景和任务中,例如三维重建、物体识别和场景理解。

📄 摘要(原文)

We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50$\times$ faster.