DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes
作者: Qirui Hou, Wenzhang Sun, Chang Zeng, Chunfeng Wang, Hao Li, Jianxun Cui
分类: cs.CV, cs.LG, cs.RO
发布日期: 2025-10-14
备注: Autonomous Driving, Novel view Synthesis, Multi task Learning
💡 一句话要点
提出DrivingScene,用于动态驾驶场景的多任务在线前馈3D高斯溅射重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 3D高斯溅射 场景流估计 自动驾驶 在线学习 深度估计 新视角合成
📋 核心要点
- 现有方法难以在动态驾驶场景重建的质量和效率之间取得平衡,尤其是在视角稀疏的情况下。
- DrivingScene通过轻量级残差流网络预测动态物体的非刚性运动,并结合静态场景先验,实现动态场景的建模。
- 实验表明,DrivingScene在nuScenes数据集上,能够在线生成高质量的深度、场景流和3D高斯点云,性能优于现有方法。
📝 摘要(中文)
针对动态驾驶场景中实时、高保真重建面临的复杂动态性和稀疏视角挑战,现有方法难以平衡质量和效率,本文提出了DrivingScene,一个在线前馈框架,仅从两个连续的环视图像重建4D动态场景。核心创新在于一个轻量级的残差流网络,用于预测每个相机上动态物体的非刚性运动,该网络基于学习到的静态场景先验,通过场景流显式地建模动态性。此外,还引入了一种由粗到精的训练范式,避免了端到端方法常见的训练不稳定问题。在nuScenes数据集上的实验表明,该图像方法能够在线生成高质量的深度、场景流和3D高斯点云,在动态重建和新视角合成方面显著优于现有技术。
🔬 方法详解
问题定义:现有方法在动态驾驶场景重建中,难以兼顾重建质量和计算效率,尤其是在视角稀疏和动态物体运动复杂的情况下。端到端方法容易出现训练不稳定问题,难以达到理想效果。
核心思路:DrivingScene的核心思路是利用静态场景先验知识,并通过一个轻量级的残差流网络来预测动态物体的非刚性运动。通过显式地建模场景流,能够更准确地捕捉动态场景的变化。此外,采用由粗到精的训练范式,可以有效缓解训练过程中的不稳定性。
技术框架:DrivingScene的整体框架是一个在线前馈网络,主要包含以下几个模块:1) 静态场景先验学习模块:用于学习静态场景的几何和外观信息。2) 残差流网络:用于预测每个相机视角下动态物体的非刚性运动(场景流)。3) 3D高斯溅射渲染模块:用于将预测的场景信息渲染成图像。整个流程是前馈的,可以实现高效的在线重建。
关键创新:DrivingScene最重要的技术创新点在于:1) 提出了一种轻量级的残差流网络,能够有效地预测动态物体的非刚性运动,从而实现对动态场景的建模。2) 引入了一种由粗到精的训练范式,避免了端到端方法常见的训练不稳定问题。与现有方法相比,DrivingScene能够更好地平衡重建质量和计算效率。
关键设计:残差流网络采用轻量级设计,以保证计算效率。损失函数包括深度损失、场景流损失和渲染损失,用于约束网络的学习。由粗到精的训练范式首先训练一个粗糙的模型,然后再逐步精细化模型,从而避免训练不稳定问题。具体网络结构和参数设置在论文中有详细描述。
📊 实验亮点
DrivingScene在nuScenes数据集上取得了显著的性能提升。实验结果表明,该方法能够在线生成高质量的深度、场景流和3D高斯点云,在动态重建和新视角合成方面显著优于现有技术。具体的性能数据和对比基线在论文中有详细展示,例如在重建精度和渲染质量方面均有明显提升。
🎯 应用场景
DrivingScene在自动驾驶、机器人导航、虚拟现实等领域具有广泛的应用前景。它可以用于构建高精度的动态驾驶场景地图,为自动驾驶车辆提供更可靠的环境感知信息。此外,还可以应用于机器人导航,帮助机器人在动态环境中进行路径规划和避障。在虚拟现实领域,可以用于创建更逼真的动态场景,提升用户体验。
📄 摘要(原文)
Real-time, high-fidelity reconstruction of dynamic driving scenes is challenged by complex dynamics and sparse views, with prior methods struggling to balance quality and efficiency. We propose DrivingScene, an online, feed-forward framework that reconstructs 4D dynamic scenes from only two consecutive surround-view images. Our key innovation is a lightweight residual flow network that predicts the non-rigid motion of dynamic objects per camera on top of a learned static scene prior, explicitly modeling dynamics via scene flow. We also introduce a coarse-to-fine training paradigm that circumvents the instabilities common to end-to-end approaches. Experiments on nuScenes dataset show our image-only method simultaneously generates high-quality depth, scene flow, and 3D Gaussian point clouds online, significantly outperforming state-of-the-art methods in both dynamic reconstruction and novel view synthesis.