FreeDriveRF: Monocular RGB Dynamic NeRF without Poses for Autonomous Driving via Point-Level Dynamic-Static Decoupling

📄 arXiv: 2505.09406v1 📥 PDF

作者: Yue Wen, Liang Song, Yijia Liu, Siting Zhu, Yanzi Miao, Lijun Han, Hesheng Wang

分类: cs.CV

发布日期: 2025-05-14

备注: 7 pages, 9 figures, accepted by ICRA2025


💡 一句话要点

FreeDriveRF:无需位姿的单目RGB动态NeRF,用于自动驾驶场景的点级动态-静态解耦

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态NeRF 自动驾驶 单目视觉 场景重建 动态-静态解耦 光流估计 位姿优化

📋 核心要点

  1. 现有动态NeRF方法依赖精确位姿和多传感器数据,增加了系统复杂性,FreeDriveRF旨在解决这一问题。
  2. FreeDriveRF的核心思想是利用语义信息在早期阶段解耦动态和静态场景,并结合光流信息约束动态物体的渲染一致性。
  3. 实验结果表明,FreeDriveRF在KITTI和Waymo数据集上实现了优越的动态场景建模性能,验证了其有效性。

📝 摘要(中文)

本文提出FreeDriveRF,仅使用连续RGB图像即可重建动态驾驶场景,无需位姿输入。该方法创新性地利用语义监督在早期采样阶段解耦动态和静态部分,从而减轻图像模糊和伪影。为了克服单目相机中物体运动和遮挡带来的挑战,引入了扭曲光线引导的动态物体渲染一致性损失,利用光流来更好地约束动态建模过程。此外,还结合估计的动态流来约束位姿优化过程,从而提高无界场景重建的稳定性和准确性。在KITTI和Waymo数据集上进行的大量实验表明,该方法在自动驾驶动态场景建模方面表现出卓越的性能。

🔬 方法详解

问题定义:现有动态NeRF方法在自动驾驶场景中重建动态场景时,通常需要精确的相机位姿作为输入,并且依赖多传感器数据,这限制了其在实际应用中的灵活性和鲁棒性。此外,单目视觉下的动态场景重建面临着物体运动和遮挡带来的挑战,容易产生图像模糊和伪影。

核心思路:FreeDriveRF的核心思路是在无需位姿输入的情况下,仅使用单目RGB图像重建动态驾驶场景。通过在早期采样阶段利用语义信息解耦动态和静态部分,并引入光流引导的动态物体渲染一致性损失,来克服单目视觉下的运动和遮挡问题。同时,利用动态流信息约束位姿优化,提高场景重建的稳定性和准确性。

技术框架:FreeDriveRF的整体框架包括以下几个主要模块:1) 语义分割模块,用于区分图像中的动态和静态区域;2) 基于语义信息的动态-静态解耦模块,在NeRF的采样阶段将动态和静态部分分开处理;3) 光流估计模块,用于估计图像序列中的光流信息;4) 扭曲光线引导的动态物体渲染一致性损失模块,利用光流信息约束动态物体的渲染一致性;5) 位姿优化模块,利用估计的动态流信息约束位姿优化过程。

关键创新:FreeDriveRF的关键创新在于:1) 提出了基于语义信息的早期动态-静态解耦方法,有效减轻了图像模糊和伪影;2) 引入了扭曲光线引导的动态物体渲染一致性损失,利用光流信息更好地约束了动态建模过程;3) 利用估计的动态流信息约束位姿优化过程,提高了无界场景重建的稳定性和准确性。

关键设计:FreeDriveRF的关键设计包括:1) 使用预训练的语义分割模型进行语义分割;2) 设计了特定的网络结构来估计光流信息;3) 定义了扭曲光线引导的动态物体渲染一致性损失函数,该损失函数基于光流信息将相邻帧的像素对应起来,并约束对应像素的颜色一致性;4) 使用动态流信息作为正则项,约束位姿优化过程,防止位姿漂移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FreeDriveRF在KITTI和Waymo数据集上进行了大量实验,结果表明该方法在动态场景建模方面取得了显著的性能提升。相较于现有方法,FreeDriveRF能够更准确地重建动态物体,并有效减少图像模糊和伪影。实验结果验证了该方法在自动驾驶场景中的有效性和优越性。

🎯 应用场景

FreeDriveRF在自动驾驶领域具有广泛的应用前景,可以用于高精地图构建、环境感知、运动规划和决策等任务。该方法仅需单目RGB图像即可实现动态场景的重建,降低了系统成本和复杂性,有助于提高自动驾驶系统的安全性和可靠性。此外,该方法还可以应用于增强现实、虚拟现实等领域,用于创建更加逼真的动态场景。

📄 摘要(原文)

Dynamic scene reconstruction for autonomous driving enables vehicles to perceive and interpret complex scene changes more precisely. Dynamic Neural Radiance Fields (NeRFs) have recently shown promising capability in scene modeling. However, many existing methods rely heavily on accurate poses inputs and multi-sensor data, leading to increased system complexity. To address this, we propose FreeDriveRF, which reconstructs dynamic driving scenes using only sequential RGB images without requiring poses inputs. We innovatively decouple dynamic and static parts at the early sampling level using semantic supervision, mitigating image blurring and artifacts. To overcome the challenges posed by object motion and occlusion in monocular camera, we introduce a warped ray-guided dynamic object rendering consistency loss, utilizing optical flow to better constrain the dynamic modeling process. Additionally, we incorporate estimated dynamic flow to constrain the pose optimization process, improving the stability and accuracy of unbounded scene reconstruction. Extensive experiments conducted on the KITTI and Waymo datasets demonstrate the superior performance of our method in dynamic scene modeling for autonomous driving.