DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes

📄 arXiv: 2510.24734v1 📥 PDF

作者: Qirui Hou, Wenzhang Sun, Chang Zeng, Chunfeng Wang, Hao Li, Jianxun Cui

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-10-14

备注: Autonomous Driving, Novel view Synthesis, Multi task Learning


💡 一句话要点

提出DrivingScene,用于动态驾驶场景的在线前馈3D高斯溅射方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 3D高斯溅射 场景流估计 自动驾驶 在线学习 前馈网络 深度学习 nuScenes数据集

📋 核心要点

  1. 现有动态驾驶场景重建方法难以兼顾重建质量与计算效率,尤其是在复杂动态和稀疏视角下。
  2. DrivingScene通过轻量级残差流网络预测非刚性运动,并结合静态场景先验,显式建模场景动态。
  3. 该方法采用由粗到精的训练策略,有效避免了端到端训练的不稳定性,并在nuScenes数据集上取得了显著提升。

📝 摘要(中文)

针对动态驾驶场景实时、高保真重建面临的复杂动态性和稀疏视角挑战,现有方法难以平衡质量和效率。我们提出了DrivingScene,一个在线前馈框架,仅从两个连续的环视图像重建4D动态场景。我们的关键创新在于一个轻量级的残差流网络,它在学习到的静态场景先验之上预测每个摄像机的动态对象的非刚性运动,通过场景流显式地建模动态。我们还引入了一种由粗到精的训练范式,避免了端到端方法常见的稳定性问题。在nuScenes数据集上的实验表明,我们仅使用图像的方法可以同时在线生成高质量的深度、场景流和3D高斯点云,在动态重建和新视角合成方面显著优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决动态驾驶场景中,从稀疏视角和复杂动态下进行实时、高保真4D场景重建的问题。现有方法通常难以在重建质量和计算效率之间取得平衡,尤其是在处理动态物体时,容易出现模糊或不准确的情况。

核心思路:论文的核心思路是利用一个轻量级的残差流网络,在学习到的静态场景先验之上,预测每个相机视角下动态物体的非刚性运动(场景流)。通过显式地建模场景流,可以更准确地捕捉动态物体的运动信息,从而提高动态场景的重建质量。

技术框架:DrivingScene采用一个在线前馈的框架。首先,利用两个连续的环视图像作为输入。然后,通过一个静态场景先验模块学习静态场景的表示。接着,利用残差流网络预测动态物体的场景流。最后,将静态场景和动态物体的运动信息结合起来,生成高质量的深度、场景流和3D高斯点云。整个框架采用由粗到精的训练范式,先训练一个粗糙的模型,然后再逐步细化模型,以避免端到端训练的不稳定性。

关键创新:论文的关键创新在于:1) 提出了一种轻量级的残差流网络,用于预测动态物体的非刚性运动;2) 引入了一种由粗到精的训练范式,避免了端到端训练的不稳定性;3) 提出了一种在线前馈的框架,可以实现实时动态场景重建。与现有方法相比,DrivingScene能够更准确地捕捉动态物体的运动信息,从而提高动态场景的重建质量和效率。

关键设计:残差流网络采用轻量级设计,以保证计算效率。损失函数包括深度损失、场景流损失和3D高斯点云损失,用于约束模型的输出。由粗到精的训练范式通过逐步增加训练数据的复杂度和模型容量来实现。静态场景先验模块的具体实现细节未知,但推测可能使用了类似NeRF或3DGS的方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DrivingScene在nuScenes数据集上取得了显著的性能提升。与最先进的方法相比,DrivingScene在动态重建和新视角合成方面均取得了更好的结果。具体的数据指标未知,但摘要中明确指出该方法“显著优于最先进的方法”,表明其性能提升具有统计意义。

🎯 应用场景

DrivingScene在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以用于构建高精度的动态环境地图,帮助自动驾驶车辆更好地感知周围环境,提高行驶安全性。此外,该方法还可以用于生成逼真的虚拟现实场景,为用户提供沉浸式的体验。未来,该研究可以进一步扩展到更复杂的动态场景,例如人群场景和交通场景。

📄 摘要(原文)

Real-time, high-fidelity reconstruction of dynamic driving scenes is challenged by complex dynamics and sparse views, with prior methods struggling to balance quality and efficiency. We propose DrivingScene, an online, feed-forward framework that reconstructs 4D dynamic scenes from only two consecutive surround-view images. Our key innovation is a lightweight residual flow network that predicts the non-rigid motion of dynamic objects per camera on top of a learned static scene prior, explicitly modeling dynamics via scene flow. We also introduce a coarse-to-fine training paradigm that circumvents the instabilities common to end-to-end approaches. Experiments on nuScenes dataset show our image-only method simultaneously generates high-quality depth, scene flow, and 3D Gaussian point clouds online, significantly outperforming state-of-the-art methods in both dynamic reconstruction and novel view synthesis.