Self-Supervised Scene Flow Estimation with Point-Voxel Fusion and Surface Representation

📄 arXiv: 2410.13355v2 📥 PDF

作者: Xuezhi Xiang, Xi Wang, Lei Zhang, Denis Ombati, Himaloy Himu, Xiantong Zhen

分类: cs.CV

发布日期: 2024-10-17 (更新: 2025-01-18)


💡 一句话要点

提出点-体素融合与表面表示的自监督场景流估计方法,提升三维运动场预测精度。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 场景流估计 自监督学习 点云处理 点-体素融合 表面特征提取 三维运动场 深度学习

📋 核心要点

  1. 现有基于点的场景流估计方法难以捕捉长距离依赖,基于体素的方法损失细节信息,限制了精度。
  2. 提出点-体素融合框架,利用体素分支捕获长距离依赖,点分支补偿细节损失,并显式编码局部表面信息。
  3. 实验表明,该方法在Flyingthings3D和KITTI数据集上优于其他自监督方法,并与监督方法具有竞争力。

📝 摘要(中文)

本文提出了一种点-体素融合的自监督场景流估计方法,旨在生成连续两帧点云之间的三维运动场。现有基于点的方法忽略了点云的不规则性,且点级别计算效率低下,难以捕捉长距离依赖关系。基于体素的方法则会损失细节信息。本文利用基于稀疏网格注意力和移位窗口策略的体素分支来捕获长距离依赖,并使用点分支来捕获细粒度特征,以补偿体素分支中的信息损失。此外,由于xyz坐标难以描述复杂3D对象的几何结构,本文通过伞状表面特征提取(USFE)模块显式地编码点云的局部表面信息。在Flyingthings3D和KITTI数据集上的实验验证了该方法的有效性。该方法优于所有其他自监督方法,并且与完全监督方法相比,取得了极具竞争力的结果。在所有指标上均有改进,尤其是在KITTIo数据集上EPE降低了8.51%,在KITTIs数据集上EPE降低了10.52%。

🔬 方法详解

问题定义:场景流估计旨在预测连续点云帧之间的三维运动场。现有基于点的方法计算效率低,难以捕捉长距离依赖关系,且忽略了点云的不规则性。基于体素的方法虽然能捕捉长距离依赖,但会损失细节信息,导致精度下降。

核心思路:本文的核心思路是结合点和体素的优势,通过点-体素融合的方式,既能捕捉长距离依赖,又能保留细节信息。同时,显式地编码点云的局部表面信息,以增强对复杂3D对象几何结构的理解。

技术框架:该方法包含两个主要分支:点分支和体素分支。体素分支使用稀疏网格注意力和移位窗口策略来捕获长距离依赖关系。点分支用于捕获细粒度特征,以补偿体素分支中的信息损失。此外,还包含一个伞状表面特征提取(USFE)模块,用于显式地编码点云的局部表面信息。两个分支提取的特征最终融合用于场景流估计。

关键创新:该方法最重要的创新点在于点-体素融合框架和伞状表面特征提取模块。点-体素融合框架有效地结合了点和体素的优势,克服了各自的局限性。伞状表面特征提取模块则显式地编码了点云的局部表面信息,增强了对几何结构的理解,这与以往方法隐式学习几何特征的方式不同。

关键设计:体素分支采用稀疏卷积和稀疏注意力机制,以减少计算量。移位窗口策略用于在不同窗口之间进行信息交互。点分支采用PointNet++等点云处理网络。伞状表面特征提取模块通过计算每个点的邻域点的法向量和曲率等信息来描述局部表面。损失函数包括场景流损失、平滑损失和一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在KITTI数据集上取得了显著的性能提升。在KITTIo数据集上,EPE(End-Point-Error)指标降低了8.51%,在KITTIs数据集上,EPE降低了10.52%。实验结果表明,该方法优于所有其他自监督方法,并且与完全监督方法相比,取得了极具竞争力的结果,证明了点-体素融合和表面表示的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、三维重建、虚拟现实等领域。通过准确估计场景中物体的运动信息,可以帮助自动驾驶系统更好地理解周围环境,提高导航的安全性。在机器人领域,可以用于机器人抓取、操作等任务。在三维重建和虚拟现实领域,可以用于生成更真实、更流畅的场景动画。

📄 摘要(原文)

Scene flow estimation aims to generate the 3D motion field of points between two consecutive frames of point clouds, which has wide applications in various fields. Existing point-based methods ignore the irregularity of point clouds and have difficulty capturing long-range dependencies due to the inefficiency of point-level computation. Voxel-based methods suffer from the loss of detail information. In this paper, we propose a point-voxel fusion method, where we utilize a voxel branch based on sparse grid attention and the shifted window strategy to capture long-range dependencies and a point branch to capture fine-grained features to compensate for the information loss in the voxel branch. In addition, since xyz coordinates are difficult to describe the geometric structure of complex 3D objects in the scene, we explicitly encode the local surface information of the point cloud through the umbrella surface feature extraction (USFE) module. We verify the effectiveness of our method by conducting experiments on the Flyingthings3D and KITTI datasets. Our method outperforms all other self-supervised methods and achieves highly competitive results compared to fully supervised methods. We achieve improvements in all metrics, especially EPE, which is reduced by 8.51% on the KITTIo dataset and 10.52% on the KITTIs dataset, respectively.