ArmGS: Composite Gaussian Appearance Refinement for Modeling Dynamic Urban Environments

📄 arXiv: 2507.03886v1 📥 PDF

作者: Guile Wu, Dongfeng Bai, Bingbing Liu

分类: cs.CV

发布日期: 2025-07-05

备注: Technical report


💡 一句话要点

ArmGS:面向动态城市环境建模的复合高斯外观优化方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景建模 3D高斯溅射 自动驾驶 外观优化 多粒度建模

📋 核心要点

  1. 现有方法在动态城市环境建模中,难以兼顾渲染效率和对帧间、视角间细微变化的建模能力。
  2. ArmGS通过多粒度外观优化,从局部高斯、全局图像和动态对象三个层面建模场景变化,提升建模精度。
  3. 在Waymo、KITTI等数据集上的实验表明,ArmGS优于现有方法,实现了更逼真的动态城市环境建模。

📝 摘要(中文)

本文致力于为自动驾驶模拟构建动态城市环境模型。当前基于神经辐射场的数据驱动方法虽然能够实现照片级逼真的驾驶场景建模,但渲染效率较低。最近,一些方法探索了使用3D高斯溅射来建模动态城市场景,实现了高保真重建和实时渲染。然而,这些方法通常忽略了帧与相机视角之间的细粒度变化,导致次优结果。本文提出了一种名为ArmGS的新方法,该方法利用复合驾驶高斯溅射与多粒度外观优化来进行自动驾驶场景建模。该方法的核心思想是设计一种多层次外观建模方案,以优化一组用于复合高斯优化的变换参数,这些参数来自多个粒度级别,从局部高斯级别到全局图像级别和动态参与者级别。这不仅模拟了帧与相机视角之间的全局场景外观变化,还模拟了背景和物体的局部细粒度变化。在多个具有挑战性的自动驾驶数据集(即Waymo、KITTI、NOTR和VKITTI2)上进行的大量实验表明,我们的方法优于最先进的方法。

🔬 方法详解

问题定义:现有基于神经辐射场的方法渲染效率低,而基于3D高斯溅射的方法虽然渲染效率高,但忽略了帧间和视角间的细粒度外观变化,导致建模效果不佳。因此,需要一种既能高效渲染又能精确建模动态城市环境的方法。

核心思路:ArmGS的核心思路是利用多粒度外观优化来提升3D高斯溅射的建模能力。通过在不同粒度级别(局部高斯、全局图像、动态对象)上优化变换参数,从而捕捉场景中更细微的外观变化。这种多层次建模方式能够更全面地描述动态城市环境。

技术框架:ArmGS的整体框架包括以下几个主要模块:1) 3D高斯溅射初始化:使用现有的方法初始化3D高斯溅射。2) 多粒度外观建模:设计多层次的外观建模方案,包括局部高斯级别、全局图像级别和动态参与者级别。3) 变换参数优化:优化每个粒度级别的变换参数,以捕捉场景中的外观变化。4) 渲染:使用优化后的3D高斯溅射进行渲染。

关键创新:ArmGS的关键创新在于提出了多粒度外观建模方案。与现有方法只关注全局或局部外观变化不同,ArmGS同时考虑了局部高斯、全局图像和动态对象三个层面的外观变化,从而能够更精确地建模动态城市环境。

关键设计:在局部高斯级别,ArmGS优化每个高斯的颜色和不透明度。在全局图像级别,ArmGS使用一个全局变换矩阵来对整个场景进行变换。在动态对象级别,ArmGS为每个动态对象学习一个独立的变换矩阵。损失函数包括渲染损失和正则化损失,用于约束变换参数的取值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ArmGS在Waymo、KITTI、NOTR和VKITTI2等多个自动驾驶数据集上进行了评估,实验结果表明,ArmGS在渲染质量和效率方面均优于现有方法。具体而言,ArmGS在PSNR、SSIM等指标上取得了显著提升,同时保持了较高的渲染帧率。例如,在Waymo数据集上,ArmGS的PSNR比现有最佳方法提高了约2dB。

🎯 应用场景

ArmGS可应用于自动驾驶仿真、虚拟现实、游戏开发等领域。通过构建逼真的动态城市环境,可以为自动驾驶算法的开发和测试提供更可靠的平台。此外,ArmGS还可以用于创建沉浸式的虚拟现实体验,以及开发更具真实感的游戏场景。未来,该技术有望在智慧城市建设、交通规划等领域发挥重要作用。

📄 摘要(原文)

This work focuses on modeling dynamic urban environments for autonomous driving simulation. Contemporary data-driven methods using neural radiance fields have achieved photorealistic driving scene modeling, but they suffer from low rendering efficacy. Recently, some approaches have explored 3D Gaussian splatting for modeling dynamic urban scenes, enabling high-fidelity reconstruction and real-time rendering. However, these approaches often neglect to model fine-grained variations between frames and camera viewpoints, leading to suboptimal results. In this work, we propose a new approach named ArmGS that exploits composite driving Gaussian splatting with multi-granularity appearance refinement for autonomous driving scene modeling. The core idea of our approach is devising a multi-level appearance modeling scheme to optimize a set of transformation parameters for composite Gaussian refinement from multiple granularities, ranging from local Gaussian level to global image level and dynamic actor level. This not only models global scene appearance variations between frames and camera viewpoints, but also models local fine-grained changes of background and objects. Extensive experiments on multiple challenging autonomous driving datasets, namely, Waymo, KITTI, NOTR and VKITTI2, demonstrate the superiority of our approach over the state-of-the-art methods.