SMORE: Simultaneous Map and Object REconstruction

📄 arXiv: 2406.13896v4 📥 PDF

作者: Nathaniel Chodosh, Anish Madan, Simon Lucey, Deva Ramanan

分类: cs.CV

发布日期: 2024-06-19 (更新: 2025-05-06)

备注: 3DV 2025,CVPR 2025 4D Vision Workshop

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SMORE方法以解决动态场景重建问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态重建 LiDAR 城市场景 全局优化 神经网络 深度学习 自动标注

📋 核心要点

  1. 现有的深度重建方法往往忽视动态物体,导致重建效果不佳,尤其是在大规模城市场景中。
  2. 本文提出了一种新的组合模型,通过全局优化方法同时重建动态物体和背景,克服了传统方法的局限性。
  3. 实验结果表明,所提方法在动态物体重建上相较于现有技术提升了一个数量级,显示出显著的效果改善。

📝 摘要(中文)

本文提出了一种从LiDAR数据中动态重建大规模城市场景的方法。现有的深度重建方法通常关注小规模物体或将动态物体视为异常值的SLAM重建。我们采用整体视角,优化动态场景的组合模型,将世界分解为刚性移动物体和背景。通过借鉴新颖视图合成方法,我们将重建问题框架化为对神经表面、视角和物体姿态的全局优化,最小化组合时空表面与输入LiDAR扫描之间的误差。与传统的视图合成方法不同,我们通过坐标下降法最小化3D点到表面的误差,分解为配准和表面重建步骤。我们分析了滚动快门LiDAR的表面重建步骤,并展示了动态物体的去偏移操作可以显著提升重建效果。该系统还可用于自动标注部分注释序列,生成难以标注问题的真实标签。

🔬 方法详解

问题定义:本文旨在解决从LiDAR数据中动态重建大规模城市场景的问题。现有方法往往将动态物体视为异常值,导致重建效果不理想。

核心思路:我们提出了一种组合模型,能够将动态场景分解为刚性移动物体和背景,并通过全局优化来实现动态重建。这样的设计使得重建过程更加全面和准确。

技术框架:整体架构包括三个主要模块:神经表面、视角和物体姿态的全局优化。我们通过坐标下降法来最小化3D点到表面的误差,分为配准和表面重建两个步骤。

关键创新:最重要的技术创新在于将动态物体的去偏移操作应用于表面重建,显著提升了重建精度,与传统方法相比具有本质区别。

关键设计:在损失函数设计上,我们采用了3D点到表面的误差最小化策略,确保重建的准确性。网络结构上,利用现有的成熟方法进行模块化设计,避免了重新训练的复杂性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提方法在动态物体重建上相较于传统技术提升了一个数量级,具体性能数据表明重建精度显著提高,验证了方法的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、城市规划和虚拟现实等。通过提供高精度的动态场景重建,能够为这些领域的技术发展提供重要支持,提升系统的智能化水平和用户体验。

📄 摘要(原文)

We present a method for dynamic surface reconstruction of large-scale urban scenes from LiDAR. Depth-based reconstructions tend to focus on small-scale objects or large-scale SLAM reconstructions that treat moving objects as outliers. We take a holistic perspective and optimize a compositional model of a dynamic scene that decomposes the world into rigidly-moving objects and the background. To achieve this, we take inspiration from recent novel view synthesis methods and frame the reconstruction problem as a global optimization over neural surfaces, ego poses, and object poses, which minimizes the error between composed spacetime surfaces and input LiDAR scans. In contrast to view synthesis methods, which typically minimize 2D errors with gradient descent, we minimize a 3D point-to-surface error by coordinate descent, which we decompose into registration and surface reconstruction steps. Each step can be handled well by off-the-shelf methods without any re-training. We analyze the surface reconstruction step for rolling-shutter LiDARs, and show that deskewing operations common in continuous time SLAM can be applied to dynamic objects as well, improving results over prior art by an order of magnitude. Beyond pursuing dynamic reconstruction as a goal in and of itself, we propose that such a system can be used to auto-label partially annotated sequences and produce ground truth annotation for hard-to-label problems such as depth completion and scene flow. Please see https://anishmadan23.github.io/smore/ for more visual results.