Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation

📄 arXiv: 2503.04718v2 📥 PDF

作者: David T. Hoffmann, Syed Haseeb Raza, Hanqiu Jiang, Denis Tananaev, Steffen Klingenhoefer, Martin Meinke

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-03-06 (更新: 2025-04-03)

备注: Accepted at CVPR 2025


💡 一句话要点

Floxels:一种快速的、基于体素的无监督场景流估计方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 场景流估计 无监督学习 体素网格 多帧优化 机器人感知

📋 核心要点

  1. 现有场景流估计的无监督优化方法存在运行时间长、易产生伪影以及收敛困难等问题。
  2. Floxels通过引入基于体素网格的模型和新的多帧损失函数,显著提升了优化效率和结果质量。
  3. 实验表明,Floxels在Argoverse 2数据集上实现了与EulerFlow相当的性能,但速度提升了60-140倍。

📝 摘要(中文)

场景流估计是许多机器人应用的基础任务,包括鲁棒的动态物体检测、自动标注和传感器同步。解决该问题的方法主要分为两类:1) 监督学习方法;2) 基于优化的方法。监督学习方法在推理过程中速度快且能获得高质量的结果,但受限于对大量标注训练数据的需求,并且容易受到领域差异的影响。相比之下,无监督的测试时优化方法不存在领域差异问题,但通常运行时间较长,容易产生伪影,或者无法收敛到正确的解。本文旨在缓解现有基于优化的方法的几个局限性。为此,我们1) 引入了一种简单的基于体素网格的模型,该模型在多个维度上优于标准的基于MLP的公式;2) 引入了一种新的多帧损失公式;3) 我们将这两项贡献结合到我们的新方法中,命名为Floxels。在Argoverse 2基准测试中,Floxels在无监督方法中仅次于EulerFlow,同时以一小部分的计算成本实现了相当的性能。Floxels实现了超过~60 - 140倍于EulerFlow的巨大加速,将每个序列的运行时间从一天减少到10分钟。与速度更快但质量较低的基线NSFP相比,Floxels实现了约~14倍的加速。

🔬 方法详解

问题定义:论文旨在解决无监督场景流估计中,现有优化方法计算成本高昂、易产生伪影以及收敛性差的问题。这些问题限制了无监督方法在实际机器人应用中的部署。

核心思路:论文的核心思路是利用体素网格结构来表示场景,并结合多帧信息进行优化。体素网格相比于MLP能够更好地捕捉空间信息,而多帧损失函数则能够提供更强的约束,从而提高收敛速度和结果质量。

技术框架:Floxels方法主要包含以下几个阶段:1) 将输入点云数据转换为体素网格表示;2) 初始化每个体素的运动向量;3) 使用多帧损失函数对体素的运动向量进行优化;4) 将优化后的运动向量应用于原始点云,得到场景流估计结果。

关键创新:Floxels的关键创新在于:1) 提出了基于体素网格的场景表示方法,相比于传统的MLP方法,能够更好地捕捉场景的空间结构信息;2) 提出了新的多帧损失函数,能够利用多帧信息来约束场景流估计,提高估计的准确性和鲁棒性。

关键设计:论文中体素网格的大小是一个关键参数,需要根据场景的尺度进行调整。多帧损失函数的设计也至关重要,需要平衡不同帧之间的约束强度。此外,优化算法的选择也会影响最终的性能,论文中使用了Adam优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Floxels在Argoverse 2数据集上取得了显著的性能提升。与EulerFlow相比,Floxels在性能相当的情况下,速度提升了60-140倍,将每个序列的运行时间从一天缩短到10分钟。与速度更快的NSFP相比,Floxels也实现了14倍的加速,同时保持了更高的估计精度。这些结果表明,Floxels是一种高效且准确的无监督场景流估计方法。

🎯 应用场景

Floxels在机器人导航、自动驾驶、三维重建等领域具有广泛的应用前景。它可以用于动态环境下的物体检测、跟踪和行为预测,从而提高机器人的感知能力和决策能力。此外,Floxels还可以用于自动驾驶车辆的场景理解和行为规划,提高驾驶的安全性和舒适性。未来,Floxels有望应用于更多需要实时场景理解的机器人应用中。

📄 摘要(原文)

Scene flow estimation is a foundational task for many robotic applications, including robust dynamic object detection, automatic labeling, and sensor synchronization. Two types of approaches to the problem have evolved: 1) Supervised and 2) optimization-based methods. Supervised methods are fast during inference and achieve high-quality results, however, they are limited by the need for large amounts of labeled training data and are susceptible to domain gaps. In contrast, unsupervised test-time optimization methods do not face the problem of domain gaps but usually suffer from substantial runtime, exhibit artifacts, or fail to converge to the right solution. In this work, we mitigate several limitations of existing optimization-based methods. To this end, we 1) introduce a simple voxel grid-based model that improves over the standard MLP-based formulation in multiple dimensions and 2) introduce a new multiframe loss formulation. 3) We combine both contributions in our new method, termed Floxels. On the Argoverse 2 benchmark, Floxels is surpassed only by EulerFlow among unsupervised methods while achieving comparable performance at a fraction of the computational cost. Floxels achieves a massive speedup of more than ~60 - 140x over EulerFlow, reducing the runtime from a day to 10 minutes per sequence. Over the faster but low-quality baseline, NSFP, Floxels achieves a speedup of ~14x.