PCSTracker: Long-Term Scene Flow Estimation for Point Cloud Sequences

📄 arXiv: 2603.19762v1 📥 PDF

作者: Min Lin, Gangwei Xu, Xianqi Wang, Yuyi Peng, Xin Yang

分类: cs.CV

发布日期: 2026-03-20

备注: Accepted in CVPR 2026 (Findings)


💡 一句话要点

PCSTracker:提出用于点云序列长期场景流估计的端到端框架。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 点云场景流 长期估计 运动估计 时间一致性 三维重建

📋 核心要点

  1. 现有场景流方法难以在长期序列中保持时间一致性,受到几何变化、遮挡和误差累积的影响。
  2. PCSTracker通过迭代几何运动联合优化和时空点轨迹更新,显式建模时间演变并推断遮挡点位置。
  3. 实验表明,PCSTracker在长序列场景流估计中达到最佳精度,并保持实时性能,优于RGB-D方法。

📝 摘要(中文)

点云场景流估计是长期和精细化3D运动分析的基础。然而,现有方法通常局限于成对设置,并且难以在几何演变、遮挡出现和误差累积的情况下保持长期的时间一致性。本文提出了PCSTracker,这是第一个专门为点云序列中一致的场景流估计而设计的端到端框架。具体来说,我们引入了一个迭代几何运动联合优化模块(IGMO),该模块显式地建模了点特征的时间演变,以减轻由动态几何变化引起的对应关系不一致。此外,提出了一个时空点轨迹更新模块(STTU),以利用广泛的时间上下文来推断被遮挡点的合理位置,从而确保连贯的运动估计。为了进一步处理长序列,我们采用了一种重叠滑动窗口推理策略,该策略交替进行跨窗口传播和窗口内细化,有效地抑制了误差累积并保持了稳定的长期运动一致性。在合成的PointOdyssey3D和真实的ADT3D数据集上的大量实验表明,PCSTracker在长期场景流估计中实现了最佳精度,并保持了32.5 FPS的实时性能,同时与基于RGB-D的方法相比,展示了卓越的3D运动理解能力。

🔬 方法详解

问题定义:现有方法在处理点云序列的长期场景流估计时,面临着几何形状随时间变化、遮挡以及误差累积等问题,导致时间一致性难以维持。这些方法通常局限于处理点云对,无法有效利用长期的时间上下文信息,从而影响了运动估计的准确性和鲁棒性。

核心思路:PCSTracker的核心思路是通过显式地建模点特征的时间演变和利用广泛的时间上下文信息来解决长期场景流估计中的一致性问题。该方法通过迭代优化几何和运动信息,并结合时空信息来推断被遮挡点的位置,从而实现更准确和鲁棒的运动估计。

技术框架:PCSTracker的整体框架包括以下几个主要模块:1) 特征提取模块:用于提取点云的几何特征。2) 迭代几何运动联合优化模块(IGMO):用于显式建模点特征的时间演变,减轻对应关系不一致。3) 时空点轨迹更新模块(STTU):利用时间上下文信息推断遮挡点的位置。4) 重叠滑动窗口推理策略:通过跨窗口传播和窗口内细化,抑制误差累积。

关键创新:PCSTracker的关键创新在于其迭代几何运动联合优化模块(IGMO)和时空点轨迹更新模块(STTU)。IGMO通过显式建模点特征的时间演变,有效地解决了由于动态几何变化引起的对应关系不一致问题。STTU则通过利用广泛的时间上下文信息,推断被遮挡点的位置,从而确保了运动估计的连贯性。此外,重叠滑动窗口推理策略也有效地抑制了误差累积,保证了长期运动一致性。

关键设计:IGMO模块可能包含迭代优化的损失函数,用于约束几何和运动的一致性。STTU模块可能采用基于图神经网络或循环神经网络的结构,用于学习点轨迹的时间依赖关系。重叠滑动窗口的大小和重叠比例是影响性能的关键参数,需要在实验中进行调整。具体的网络结构和损失函数细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PCSTracker在PointOdyssey3D和ADT3D数据集上取得了最佳的长期场景流估计精度。该方法在保持32.5 FPS实时性能的同时,展现出优于基于RGB-D方法的3D运动理解能力。实验结果表明,PCSTracker能够有效地处理长期序列中的几何变化、遮挡和误差累积问题,从而实现更准确和鲁棒的运动估计。

🎯 应用场景

PCSTracker在自动驾驶、机器人导航、三维场景重建等领域具有广泛的应用前景。精确的长期场景流估计可以帮助自动驾驶系统更好地理解周围环境的动态变化,从而做出更安全可靠的决策。在机器人导航中,可以用于构建更鲁棒的环境地图,提高机器人的定位和路径规划能力。在三维场景重建中,可以用于生成更准确和完整的场景模型。

📄 摘要(原文)

Point cloud scene flow estimation is fundamental to long-term and fine-grained 3D motion analysis. However, existing methods are typically limited to pairwise settings and struggle to maintain temporal consistency over long sequences as geometry evolves, occlusions emerge, and errors accumulate. In this work, we propose PCSTracker, the first end-to-end framework specifically designed for consistent scene flow estimation in point cloud sequences. Specifically, we introduce an iterative geometry motion joint optimization module (IGMO) that explicitly models the temporal evolution of point features to alleviate correspondence inconsistencies caused by dynamic geometric changes. In addition, a spatio-temporal point trajectory update module (STTU) is proposed to leverage broad temporal context to infer plausible positions for occluded points, ensuring coherent motion estimation. To further handle long sequences, we employ an overlapping sliding-window inference strategy that alternates cross-window propagation and in-window refinement, effectively suppressing error accumulation and maintaining stable long-term motion consistency. Extensive experiments on the synthetic PointOdyssey3D and real-world ADT3D datasets show that PCSTracker achieves the best accuracy in long-term scene flow estimation and maintains real-time performance at 32.5 FPS, while demonstrating superior 3D motion understanding compared to RGB-D-based approaches.