MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

作者: Yingshuang Zou, Yikang Ding, Chuanrui Zhang, Jiazhe Guo, Bohan Li, Xiaoyang Lyu, Feiyang Tan, Xiaojuan Qi, Haoqian Wang

分类: cs.CV

发布日期: 2025-03-13

💡 一句话要点

MuDG：利用高斯溅射驯服多模态扩散模型，用于城市场景重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 多模态扩散模型 高斯溅射 城市场景重建 新视角合成 自动驾驶 三维重建 激光雷达

📋 核心要点

重建方法在视角偏离训练轨迹时性能显著下降，而生成方法在时间一致性和精确场景可控性方面存在困难。
MuDG通过多模态扩散模型结合高斯溅射，利用激光雷达点云、RGB和几何先验，合成新视角的RGB、深度和语义信息。
实验表明，MuDG在Open Waymo数据集上，重建和合成质量均优于现有方法，提升了极端视角下的渲染鲁棒性。

📝 摘要（中文）

本文提出了一种名为MuDG的创新框架，用于城市场景重建，该框架集成了多模态扩散模型与高斯溅射（GS）。MuDG利用聚合的激光雷达点云以及RGB和几何先验来调节多模态视频扩散模型，从而为新的视角合成逼真的RGB、深度和语义输出。这种合成流程实现了前馈式的新视角合成，无需计算密集型的逐场景优化，并提供全面的监督信号，以细化3DGS表示，从而增强在极端视角变化下的渲染鲁棒性。在Open Waymo数据集上的实验表明，MuDG在重建和合成质量方面均优于现有方法。

🔬 方法详解

问题定义：现有基于辐射场的方法在自动驾驶场景的三维重建和新视角合成中取得了显著进展，但仍然存在局限性。重建方法在视角与训练轨迹偏差较大时性能会显著下降，而生成方法则难以保证时间一致性和精确的场景控制。因此，如何提高在极端视角变化下的重建质量和合成效果，同时保持场景的精确可控性，是本文要解决的核心问题。

核心思路：MuDG的核心思路是将多模态扩散模型与高斯溅射（Gaussian Splatting, GS）相结合。通过利用激光雷达点云、RGB图像和几何先验等多模态信息来调节扩散模型，生成高质量的新视角图像。同时，利用生成的新视角图像来监督和优化高斯溅射的表示，从而提高渲染的鲁棒性和质量。这种结合生成和重建的方法，旨在克服传统方法的局限性。

技术框架：MuDG的整体框架包含以下几个主要模块：1) 多模态数据聚合模块：将激光雷达点云、RGB图像和几何先验信息进行融合，形成多模态的输入表示。2) 多模态扩散模型：利用聚合后的多模态信息作为条件，生成新视角的RGB、深度和语义图像。3) 高斯溅射优化模块：利用扩散模型生成的新视角图像作为监督信号，优化高斯溅射的表示，提高渲染质量和鲁棒性。整个流程是前馈式的，避免了逐场景的优化。

关键创新：MuDG的关键创新在于将多模态扩散模型与高斯溅射相结合，用于城市场景重建。与传统的重建方法相比，MuDG能够利用生成模型来增强新视角的合成能力，从而提高在极端视角变化下的重建质量。与传统的生成方法相比，MuDG利用高斯溅射来保证场景的精确可控性，并提高渲染效率。

关键设计：在多模态扩散模型中，使用了RGB、深度和语义信息作为输出，并利用激光雷达点云和几何先验作为条件。在高斯溅射优化模块中，使用了扩散模型生成的新视角图像作为监督信号，通过最小化渲染图像与生成图像之间的差异来优化高斯溅射的参数。具体的损失函数包括RGB损失、深度损失和语义损失。网络结构细节未知。

🖼️ 关键图片

📊 实验亮点

MuDG在Open Waymo数据集上进行了实验，结果表明，MuDG在重建和合成质量方面均优于现有方法。具体的性能数据未知，但论文强调MuDG在极端视角变化下的渲染鲁棒性得到了显著提升。与现有方法相比，MuDG能够生成更逼真、更精确的新视角图像，从而提高了三维重建的整体质量。

🎯 应用场景

MuDG在自动驾驶、城市规划、虚拟现实等领域具有广泛的应用前景。它可以用于生成高质量的新视角图像，从而提高自动驾驶系统的感知能力和决策能力。此外，MuDG还可以用于城市规划的可视化和仿真，以及虚拟现实场景的创建和渲染。该研究的实际价值在于提高了三维重建和新视角合成的质量和效率，为相关领域的发展提供了新的技术手段。

📄 摘要（原文）

Recent breakthroughs in radiance fields have significantly advanced 3D scene reconstruction and novel view synthesis (NVS) in autonomous driving. Nevertheless, critical limitations persist: reconstruction-based methods exhibit substantial performance deterioration under significant viewpoint deviations from training trajectories, while generation-based techniques struggle with temporal coherence and precise scene controllability. To overcome these challenges, we present MuDG, an innovative framework that integrates Multi-modal Diffusion model with Gaussian Splatting (GS) for Urban Scene Reconstruction. MuDG leverages aggregated LiDAR point clouds with RGB and geometric priors to condition a multi-modal video diffusion model, synthesizing photorealistic RGB, depth, and semantic outputs for novel viewpoints. This synthesis pipeline enables feed-forward NVS without computationally intensive per-scene optimization, providing comprehensive supervision signals to refine 3DGS representations for rendering robustness enhancement under extreme viewpoint changes. Experiments on the Open Waymo Dataset demonstrate that MuDG outperforms existing methods in both reconstruction and synthesis quality.

MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理