DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes

作者: Qirui Hou, Wenzhang Sun, Chang Zeng, Chunfeng Wang, Hao Li, Jianxun Cui

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-10-14

备注: Autonomous Driving, Novel view Synthesis, Multi task Learning

💡 一句话要点

提出DrivingScene，用于动态驾驶场景的多任务在线前馈3D高斯溅射重建。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 3D高斯溅射 场景流估计 自动驾驶 在线学习 深度估计 新视角合成

📋 核心要点

现有方法难以在动态驾驶场景重建的质量和效率之间取得平衡，尤其是在视角稀疏的情况下。
DrivingScene通过轻量级残差流网络预测动态物体的非刚性运动，并结合静态场景先验，实现动态场景的建模。
实验表明，DrivingScene在nuScenes数据集上，能够在线生成高质量的深度、场景流和3D高斯点云，性能优于现有方法。

📝 摘要（中文）

针对动态驾驶场景中实时、高保真重建面临的复杂动态性和稀疏视角挑战，现有方法难以平衡质量和效率，本文提出了DrivingScene，一个在线前馈框架，仅从两个连续的环视图像重建4D动态场景。核心创新在于一个轻量级的残差流网络，用于预测每个相机上动态物体的非刚性运动，该网络基于学习到的静态场景先验，通过场景流显式地建模动态性。此外，还引入了一种由粗到精的训练范式，避免了端到端方法常见的训练不稳定问题。在nuScenes数据集上的实验表明，该图像方法能够在线生成高质量的深度、场景流和3D高斯点云，在动态重建和新视角合成方面显著优于现有技术。

🔬 方法详解

问题定义：现有方法在动态驾驶场景重建中，难以兼顾重建质量和计算效率，尤其是在视角稀疏和动态物体运动复杂的情况下。端到端方法容易出现训练不稳定问题，难以达到理想效果。

核心思路：DrivingScene的核心思路是利用静态场景先验知识，并通过一个轻量级的残差流网络来预测动态物体的非刚性运动。通过显式地建模场景流，能够更准确地捕捉动态场景的变化。此外，采用由粗到精的训练范式，可以有效缓解训练过程中的不稳定性。

技术框架：DrivingScene的整体框架是一个在线前馈网络，主要包含以下几个模块：1) 静态场景先验学习模块：用于学习静态场景的几何和外观信息。2) 残差流网络：用于预测每个相机视角下动态物体的非刚性运动（场景流）。3) 3D高斯溅射渲染模块：用于将预测的场景信息渲染成图像。整个流程是前馈的，可以实现高效的在线重建。

关键创新：DrivingScene最重要的技术创新点在于：1) 提出了一种轻量级的残差流网络，能够有效地预测动态物体的非刚性运动，从而实现对动态场景的建模。2) 引入了一种由粗到精的训练范式，避免了端到端方法常见的训练不稳定问题。与现有方法相比，DrivingScene能够更好地平衡重建质量和计算效率。

关键设计：残差流网络采用轻量级设计，以保证计算效率。损失函数包括深度损失、场景流损失和渲染损失，用于约束网络的学习。由粗到精的训练范式首先训练一个粗糙的模型，然后再逐步精细化模型，从而避免训练不稳定问题。具体网络结构和参数设置在论文中有详细描述。

📊 实验亮点

DrivingScene在nuScenes数据集上取得了显著的性能提升。实验结果表明，该方法能够在线生成高质量的深度、场景流和3D高斯点云，在动态重建和新视角合成方面显著优于现有技术。具体的性能数据和对比基线在论文中有详细展示，例如在重建精度和渲染质量方面均有明显提升。

🎯 应用场景

DrivingScene在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以用于构建高精度的动态驾驶场景地图，为自动驾驶车辆提供更可靠的环境感知信息。此外，还可以应用于机器人导航，帮助机器人在动态环境中进行路径规划和避障。在虚拟现实领域，可以用于创建更逼真的动态场景，提升用户体验。

📄 摘要（原文）

Real-time, high-fidelity reconstruction of dynamic driving scenes is challenged by complex dynamics and sparse views, with prior methods struggling to balance quality and efficiency. We propose DrivingScene, an online, feed-forward framework that reconstructs 4D dynamic scenes from only two consecutive surround-view images. Our key innovation is a lightweight residual flow network that predicts the non-rigid motion of dynamic objects per camera on top of a learned static scene prior, explicitly modeling dynamics via scene flow. We also introduce a coarse-to-fine training paradigm that circumvents the instabilities common to end-to-end approaches. Experiments on nuScenes dataset show our image-only method simultaneously generates high-quality depth, scene flow, and 3D Gaussian point clouds online, significantly outperforming state-of-the-art methods in both dynamic reconstruction and novel view synthesis.

DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册