Diffusion-guided Generalizable Enhancer for Urban Scene Reconstruction
作者: Henry Che, Jingkang Wang, Yun Chen, Ze Yang, Sivabalan Manivasagam, Raquel Urtasun
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-05-21
备注: ICRA 2026. Project page: https://waabi.ai/genre
💡 一句话要点
提出GenRe,一种扩散模型引导的通用增强器,用于提升城市场景重建在未见视角的质量。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 城市场景重建 神经渲染 扩散模型 通用增强器 自动驾驶
📋 核心要点
- 现有神经渲染方法在视角变换较大时重建质量下降,限制了其在自动驾驶闭环仿真中的应用。
- GenRe利用扩散模型学习跨场景的生成先验,增强3D高斯表示,从而提升未见视角的重建质量。
- 实验表明,GenRe在重建质量和效率上优于现有方法,并能提升自动驾驶相关下游任务的性能。
📝 摘要(中文)
城市场景重建在自动驾驶开发和测试中扮演着重要角色。现有的神经渲染方法虽然在已记录轨迹上能实现高保真渲染,但在大视角变换下质量显著下降,限制了其在闭环仿真中的应用。最近的研究表明,扩散模型在增强这些具有挑战性视角的质量方面具有潜力,并可以将改进提炼回3D表示。然而,它们通常需要昂贵的逐场景优化,并且提炼后的表示仍然脆弱,无法推广到有限的合成视图之外。为了解决这些限制,我们提出了一种新颖的扩散引导通用增强器GenRe,用于城市场景重建。GenRe以任何预训练的3D高斯表示作为输入,并在几分钟内修复缺陷。通过学习跨不同场景提炼生成先验,GenRe能够高效地生成鲁棒和高保真的表示,并可靠地推广到具有挑战性的未见视角(例如,变道)。实验表明,GenRe在质量和效率方面均优于现有方法,并有益于各种下游任务,从而为自动驾驶实现鲁棒和可扩展的传感器仿真。
🔬 方法详解
问题定义:现有神经渲染方法在已记录轨迹附近视角表现良好,但当视角发生较大变化时,重建质量会显著下降。这限制了它们在自动驾驶闭环仿真等需要任意视角渲染的应用中的实用性。此外,基于扩散模型的增强方法通常需要逐场景优化,泛化能力较差。
核心思路:GenRe的核心思路是利用扩散模型强大的生成能力,学习一个通用的增强器,能够将预训练的3D高斯表示提升到更高的质量,尤其是在具有挑战性的未见视角下。通过跨多个场景学习生成先验,GenRe能够泛化到新的场景和视角,避免了逐场景优化的需要。
技术框架:GenRe的整体框架包括以下几个主要步骤:1) 使用预训练的3D高斯表示初始化场景;2) 从目标视角渲染图像;3) 使用扩散模型对渲染图像进行增强,生成更逼真的图像;4) 将增强后的图像作为监督信号,反向传播优化3D高斯表示。该过程迭代进行,直到3D表示收敛。
关键创新:GenRe的关键创新在于其通用性。它不是针对特定场景进行优化,而是学习一个可以应用于任何预训练3D高斯表示的通用增强器。这使得GenRe能够快速适应新的场景,并泛化到未见视角。此外,GenRe利用扩散模型进行图像增强,能够生成更逼真、更细节丰富的图像,从而提升重建质量。
关键设计:GenRe的关键设计包括:1) 使用预训练的3D高斯表示作为输入,避免从头开始训练;2) 使用扩散模型进行图像增强,利用其强大的生成能力;3) 设计合适的损失函数,将增强后的图像作为监督信号,优化3D高斯表示。具体的损失函数可能包括L1损失、感知损失等。网络结构细节(如扩散模型的具体架构)在论文中可能有所描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GenRe在重建质量和效率方面均优于现有方法。具体来说,GenRe能够在几分钟内修复3D高斯表示的缺陷,并显著提升未见视角的渲染质量。此外,GenRe还能够提升自动驾驶相关下游任务的性能,例如目标检测和语义分割。
🎯 应用场景
GenRe在自动驾驶领域具有广泛的应用前景,可以用于生成高质量的传感器数据,从而支持自动驾驶算法的开发、测试和验证。此外,GenRe还可以应用于城市规划、游戏开发等领域,生成逼真的城市场景渲染。
📄 摘要(原文)
Urban scene reconstruction from real-world observations has emerged as a powerful tool for self-driving development and testing. While current neural rendering approaches achieve high-fidelity rendering along the recorded trajectories, their quality degrades significantly under large viewpoint shifts, limiting the applicability for closed-loop simulation. Recent works have shown promising results in using diffusion models to enhance quality at these challenging viewpoints and distill improvements back into 3D representations. However, they often require costly per-scene optimization, and the distilled representations remain fragile and fail to generalize beyond limited synthesized views. To address these limitations, we propose GenRe, a novel diffusion-guided generalizable enhancer for urban scene reconstruction. GenRe takes as input any pretrained 3D Gaussian representation and fixes the deficiencies within a few minutes. By learning to distill generative priors across diverse scenes, GenRe produces robust and high-fidelity representation efficiently that generalizes reliably to challenging unseen viewpoints (e.g., lane change). Experiments show that GenRe outperforms existing methods in both quality and efficiency and benefits various downstream tasks, enabling robust and scalable sensor simulation for autonomous driving.