VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow
作者: Yancong Lin, Shiming Wang, Liangliang Nan, Julian Kooij, Holger Caesar
分类: cs.CV, cs.AI
发布日期: 2025-03-28 (更新: 2025-04-16)
备注: CVPR 2025. Code is available at https://github.com/tudelft-iv/VoteFlow. Yancong Lin and Shiming Wang have equal contributions
🔗 代码/项目: GITHUB
💡 一句话要点
VoteFlow通过可微投票模块,在自监督场景流中强制执行局部刚性约束。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 场景流估计 自监督学习 局部刚性 可微投票 点云处理
📋 核心要点
- 现有自监督场景流方法缺乏对局部刚性运动的架构归纳偏置,导致学习效率低和性能不佳。
- VoteFlow通过可微投票模块在网络设计中强制执行局部刚性,实现端到端学习,提升模型性能。
- 实验表明,VoteFlow在Argoverse 2和Waymo数据集上优于基线方法,且计算开销增加极小。
📝 摘要(中文)
场景流估计旨在从两个相邻的激光雷达扫描中恢复每个点的运动。然而,在自动驾驶等实际应用中,点很少独立于其他点移动,特别是对于属于同一对象的附近点,它们通常共享相同的运动。在自监督场景流估计中,整合这种局部刚性运动约束一直是一个关键挑战,通常通过后处理或附加额外的正则化来解决。虽然这些方法能够提高预测流的刚性,但它们缺乏模型结构中局部刚性的架构归纳偏置,导致次优的学习效率和较差的性能。相比之下,我们通过神经网络设计中的轻量级附加模块来强制执行局部刚性,从而实现端到端学习。我们设计了一个离散化的投票空间,以适应所有可能的平移,然后通过可微投票来识别附近点共享的平移。此外,为了确保计算效率,我们对pillar而不是点进行操作,并学习每个pillar的代表性特征以进行投票。我们将投票模块插入到流行的模型设计中,并在Argoverse 2和Waymo数据集上评估其优势。我们以极小的计算开销优于基线工作。
🔬 方法详解
问题定义:场景流估计旨在预测点云中每个点的运动矢量。现有自监督方法通常忽略了局部刚性约束,即相邻点(尤其属于同一物体)应具有相似的运动。现有方法要么通过后处理,要么添加正则化项来解决这个问题,但这些方法缺乏内生的局部刚性约束,导致学习效率和性能受限。
核心思路:VoteFlow的核心思想是通过一个可微投票模块,显式地在网络结构中引入局部刚性约束。该模块通过让相邻点“投票”来确定它们共享的运动,从而强制执行局部刚性。这种方法将局部刚性作为一种架构归纳偏置,直接嵌入到模型中,避免了后处理或额外的正则化。
技术框架:VoteFlow可以作为一个插件模块集成到现有的场景流估计网络中。其主要流程如下:1) 将点云划分为pillar;2) 对每个pillar提取特征;3) 在离散化的投票空间中,每个pillar基于其特征进行投票,预测可能的运动;4) 通过可微的方式聚合相邻pillar的投票结果,得到最终的运动估计。
关键创新:VoteFlow的关键创新在于其可微投票模块,它允许网络以端到端的方式学习局部刚性约束。与现有方法相比,VoteFlow不是事后地强制执行局部刚性,而是将其作为网络结构的一部分,从而提高了学习效率和性能。此外,使用pillar而不是点进行投票,显著降低了计算复杂度。
关键设计:VoteFlow的关键设计包括:1) 离散化的投票空间,定义了所有可能的平移;2) 基于pillar的特征提取,用于投票;3) 可微的投票聚合机制,用于确定最终的运动估计。损失函数包括场景流损失和可选的正则化项。具体参数设置(如pillar大小、投票空间分辨率等)需要根据具体数据集进行调整。
🖼️ 关键图片
📊 实验亮点
VoteFlow在Argoverse 2和Waymo数据集上进行了评估,实验结果表明,VoteFlow在保持较低计算开销的同时,显著优于基线方法。具体而言,VoteFlow在场景流估计的准确性和刚性方面均取得了提升,证明了其有效性。
🎯 应用场景
VoteFlow在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。它可以提高场景理解的准确性和鲁棒性,从而改善自动驾驶系统的感知能力,提升机器人导航的安全性,并增强增强现实应用的沉浸感。该研究为未来更高效、更可靠的场景流估计方法奠定了基础。
📄 摘要(原文)
Scene flow estimation aims to recover per-point motion from two adjacent LiDAR scans. However, in real-world applications such as autonomous driving, points rarely move independently of others, especially for nearby points belonging to the same object, which often share the same motion. Incorporating this locally rigid motion constraint has been a key challenge in self-supervised scene flow estimation, which is often addressed by post-processing or appending extra regularization. While these approaches are able to improve the rigidity of predicted flows, they lack an architectural inductive bias for local rigidity within the model structure, leading to suboptimal learning efficiency and inferior performance. In contrast, we enforce local rigidity with a lightweight add-on module in neural network design, enabling end-to-end learning. We design a discretized voting space that accommodates all possible translations and then identify the one shared by nearby points by differentiable voting. Additionally, to ensure computational efficiency, we operate on pillars rather than points and learn representative features for voting per pillar. We plug the Voting Module into popular model designs and evaluate its benefit on Argoverse 2 and Waymo datasets. We outperform baseline works with only marginal compute overhead. Code is available at https://github.com/tudelft-iv/VoteFlow.