UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors

📄 arXiv: 2505.23434v1 📥 PDF

作者: Tianhang Wang, Fan Lu, Sanqing Qu, Guo Yu, Shihang Du, Ya Wu, Yuan Huang, Guang Chen

分类: cs.CV

发布日期: 2025-05-29


💡 一句话要点

UrbanCraft:利用分层语义几何先验实现城市视角外推

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 城市重建 视角外推 神经渲染 语义几何先验 分数蒸馏 变分推断 图像生成

📋 核心要点

  1. 现有神经渲染方法在训练视角附近表现良好,但在外推视角合成方面存在泛化性不足的问题。
  2. UrbanCraft利用分层语义几何先验,包括场景级占用网格和实例级3D边界框,来指导视角外推。
  3. 提出的HSG-VSD方法将语义和几何约束集成到分数蒸馏采样中,提高了外推视角的生成质量。

📝 摘要(中文)

现有的基于神经渲染的城市场景重建方法主要集中在插值视角合成(IVS)设置,即从靠近训练相机轨迹的视角进行合成。然而,IVS不能保证在训练相机分布之外的新视角(例如,向左、向右或向下看)也能达到同等水平的性能,这限制了城市重建应用的通用性。之前的方法通过图像扩散对其进行了优化,但由于仅文本扩散的粗粒度控制,它们无法处理文本模糊或大的未见视角。在本文中,我们设计了UrbanCraft,它利用分层语义几何表示作为额外的先验,克服了外推视角合成(EVS)问题。具体来说,我们利用部分可观察的场景来重建粗略的语义和几何图元,通过占用网格建立粗略的场景级先验作为基本表示。此外,我们还结合了来自3D边界框的精细实例级先验,以增强对象级细节和空间关系。在此基础上,我们提出了分层语义-几何引导变分分数蒸馏(HSG-VSD),它将来自预训练的UrbanCraft2D的语义和几何约束集成到分数蒸馏采样过程中,迫使分布与可观察的场景保持一致。定性和定量比较表明了我们的方法在EVS问题上的有效性。

🔬 方法详解

问题定义:论文旨在解决城市场景中外推视角合成(EVS)的问题。现有的神经渲染方法主要关注插值视角合成(IVS),即在训练相机轨迹附近的视角进行合成,无法保证在新视角下的性能,尤其是在视角变化较大时,容易出现图像模糊或失真。

核心思路:论文的核心思路是利用分层的语义和几何先验信息来约束视角外推过程。通过引入场景级的粗略语义和几何信息(占用网格)以及实例级的精细语义和几何信息(3D边界框),为视角合成提供更强的约束,从而提高生成图像的质量和真实性。

技术框架:UrbanCraft的整体框架包含以下几个主要模块:1) 场景重建模块:利用部分可观测场景重建粗略的语义和几何图元,生成场景级的占用网格和实例级的3D边界框。2) UrbanCraft2D模块:预训练的2D图像生成模型,提供语义和几何约束。3) HSG-VSD模块:将语义和几何约束集成到分数蒸馏采样过程中,生成最终的外推视角图像。

关键创新:该论文的关键创新在于提出了分层语义-几何引导变分分数蒸馏(HSG-VSD)方法。该方法将场景级的占用网格和实例级的3D边界框作为先验信息,通过变分推断的方式,将这些先验信息融入到分数蒸馏采样过程中,从而生成更符合场景语义和几何结构的外推视角图像。与传统的图像扩散方法相比,HSG-VSD能够更好地处理文本模糊和大的未见视角问题。

关键设计:HSG-VSD的关键设计包括:1) 分层先验表示:使用占用网格表示场景级的粗略几何信息,使用3D边界框表示实例级的精细几何信息。2) 变分推断:使用变分推断将语义和几何先验信息融入到分数蒸馏采样过程中。3) UrbanCraft2D:利用预训练的UrbanCraft2D模型提供额外的语义和几何约束。

🖼️ 关键图片

fig_0

📊 实验亮点

论文通过定性和定量实验验证了UrbanCraft在EVS问题上的有效性。实验结果表明,UrbanCraft能够生成高质量的外推视角图像,并且在图像质量和真实性方面优于现有的方法。具体的性能数据和对比基线在论文中有详细展示,证明了该方法的优越性。

🎯 应用场景

该研究成果可应用于城市规划、自动驾驶、虚拟现实等领域。例如,在城市规划中,可以利用该方法生成不同视角下的城市景观图像,辅助规划决策。在自动驾驶中,可以利用该方法生成未见视角的图像,提高自动驾驶系统的感知能力。在虚拟现实中,可以利用该方法生成更逼真的城市场景,提升用户体验。

📄 摘要(原文)

Existing neural rendering-based urban scene reconstruction methods mainly focus on the Interpolated View Synthesis (IVS) setting that synthesizes from views close to training camera trajectory. However, IVS can not guarantee the on-par performance of the novel view outside the training camera distribution (\textit{e.g.}, looking left, right, or downwards), which limits the generalizability of the urban reconstruction application. Previous methods have optimized it via image diffusion, but they fail to handle text-ambiguous or large unseen view angles due to coarse-grained control of text-only diffusion. In this paper, we design UrbanCraft, which surmounts the Extrapolated View Synthesis (EVS) problem using hierarchical sem-geometric representations serving as additional priors. Specifically, we leverage the partially observable scene to reconstruct coarse semantic and geometric primitives, establishing a coarse scene-level prior through an occupancy grid as the base representation. Additionally, we incorporate fine instance-level priors from 3D bounding boxes to enhance object-level details and spatial relationships. Building on this, we propose the \textbf{H}ierarchical \textbf{S}emantic-Geometric-\textbf{G}uided Variational Score Distillation (HSG-VSD), which integrates semantic and geometric constraints from pretrained UrbanCraft2D into the score distillation sampling process, forcing the distribution to be consistent with the observable scene. Qualitative and quantitative comparisons demonstrate the effectiveness of our methods on EVS problem.