MTGS: Multi-Traversal Gaussian Splatting

📄 arXiv: 2503.12552v3 📥 PDF

作者: Tianyu Li, Yihang Qiu, Zhenhua Wu, Carl Lindström, Peng Su, Matthias Nießner, Hongyang Li

分类: cs.CV, cs.GR

发布日期: 2025-03-16 (更新: 2025-03-22)


💡 一句话要点

提出MTGS,利用多视角高斯溅射重建高质量驾驶场景,解决动态物体和外观变化问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角重建 高斯溅射 动态场景 驾驶场景 新视角合成 场景图 颜色校正

📋 核心要点

  1. 多视角数据重建驾驶场景面临外观变化和动态物体干扰等挑战,导致重建质量下降。
  2. MTGS通过共享静态几何、独立处理动态元素和外观变化,有效提升重建质量。
  3. 在nuPlan数据集上的实验表明,MTGS在LPIPS和几何精度上均显著优于单视角基线。

📝 摘要(中文)

本文提出了一种名为多视角高斯溅射(MTGS)的新方法,旨在从任意采集的多视角数据中重建高质量的驾驶场景。多视角数据通常通过日常通勤或自动驾驶车队收集,为道路区域内的场景重建提供了多个视角。MTGS通过建模共享的静态几何结构,并分别处理动态元素和外观变化,从而解决多视角数据中固有的挑战,例如外观变化和动态物体的存在,这些挑战通常会导致次优的重建质量。该方法采用多视角动态场景图,包含一个共享的静态节点和特定于视角的动态节点,并辅以带有可学习球谐系数残差的颜色校正节点。这种方法实现了高保真的新视角合成,并提供了灵活导航任何视点的能力。在大型驾驶数据集nuPlan上进行了大量实验,结果表明,与单视角基线相比,MTGS将LPIPS提高了23.5%,几何精度提高了46.3%。代码和数据将公开。

🔬 方法详解

问题定义:论文旨在解决利用多视角数据重建驾驶场景时,由于外观变化(例如光照条件不同)和动态物体(例如车辆和行人)的存在,导致重建质量下降的问题。现有方法难以有效分离静态场景和动态元素,并且无法很好地处理不同视角下的外观差异。

核心思路:论文的核心思路是将场景分解为共享的静态几何结构和特定于视角的动态元素,并引入颜色校正机制来处理外观变化。通过这种方式,可以更好地利用多视角数据中的信息,提高重建的准确性和鲁棒性。

技术框架:MTGS的整体框架包含以下几个主要模块:1) 多视角动态场景图构建:构建一个包含共享静态节点和视角特定动态节点的场景图。2) 高斯溅射表示:使用3D高斯分布来表示场景的几何和外观信息。3) 颜色校正:引入带有可学习球谐系数残差的颜色校正节点,以处理不同视角下的外观差异。4) 优化:通过优化高斯分布的参数、动态节点的变换以及颜色校正系数,实现高质量的场景重建。

关键创新:MTGS的关键创新在于:1) 多视角动态场景图:将场景分解为共享静态几何和视角特定动态元素,更好地处理动态场景。2) 颜色校正节点:通过学习球谐系数残差,有效处理不同视角下的外观变化。3) 结合高斯溅射:利用高斯溅射的优势,实现高效且高质量的渲染。

关键设计:在场景图构建中,使用BA(Bundle Adjustment)优化相机位姿。颜色校正模块使用三阶球谐函数来建模光照变化,并通过学习残差来进一步提高校正效果。损失函数包括渲染损失(L1损失和LPIPS损失)和正则化损失,以保证重建的几何形状和外观的合理性。高斯分布的参数包括位置、缩放、旋转和不透明度,这些参数通过梯度下降进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在nuPlan数据集上的实验结果表明,MTGS显著优于单视角基线方法。具体而言,MTGS将LPIPS指标提高了23.5%,几何精度提高了46.3%。这些结果表明,MTGS能够有效地处理多视角数据中的外观变化和动态物体,从而实现更高质量的驾驶场景重建。此外,MTGS还能够生成任意视角的图像,为自动驾驶和虚拟现实等应用提供了更大的灵活性。

🎯 应用场景

MTGS在自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于创建高精度的驾驶模拟器,为自动驾驶算法的开发和测试提供逼真的环境。此外,还可以用于构建虚拟旅游场景,让用户体验不同地点的驾驶感受。该技术还有潜力应用于城市规划和智能交通管理,通过重建城市的三维模型,为交通流量分析和优化提供数据支持。

📄 摘要(原文)

Multi-traversal data, commonly collected through daily commutes or by self-driving fleets, provides multiple viewpoints for scene reconstruction within a road block. This data offers significant potential for high-quality novel view synthesis, which is crucial for applications such as autonomous vehicle simulators. However, inherent challenges in multi-traversal data often result in suboptimal reconstruction quality, including variations in appearance and the presence of dynamic objects. To address these issues, we propose Multi-Traversal Gaussian Splatting (MTGS), a novel approach that reconstructs high-quality driving scenes from arbitrarily collected multi-traversal data by modeling a shared static geometry while separately handling dynamic elements and appearance variations. Our method employs a multi-traversal dynamic scene graph with a shared static node and traversal-specific dynamic nodes, complemented by color correction nodes with learnable spherical harmonics coefficient residuals. This approach enables high-fidelity novel view synthesis and provides flexibility to navigate any viewpoint. We conduct extensive experiments on a large-scale driving dataset, nuPlan, with multi-traversal data. Our results demonstrate that MTGS improves LPIPS by 23.5% and geometry accuracy by 46.3% compared to single-traversal baselines. The code and data would be available to the public.