Extend3D: Town-Scale 3D Generation
作者: Seungwoo Yoon, Jinmo Kim, Jaesik Park
分类: cs.CV, cs.AI
发布日期: 2026-03-31
备注: CVPR 2026, Project Page: http://seungwoo-yoon.github.io/extend3d-page
💡 一句话要点
Extend3D:提出一种基于单张图像的城市级3D场景生成无训练流程。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景生成 单张图像 无训练 物体中心模型 潜在空间扩展
📋 核心要点
- 现有基于物体中心的3D生成模型在处理大规模场景时,受限于固定大小的潜在空间,难以有效建模。
- Extend3D通过扩展潜在空间,并采用patch-wise生成和耦合策略,实现了对更大场景的建模能力。
- 该方法利用单目深度估计初始化场景,并通过SDEdit和潜在空间优化,提升了3D结构的完整性和纹理保真度。
📝 摘要(中文)
本文提出Extend3D,一个基于单张图像生成3D场景的无训练流程,它构建于一个以物体为中心的3D生成模型之上。为了克服以物体为中心的模型在表示宽阔场景时固定大小潜在空间的局限性,我们在x和y方向上扩展了潜在空间。然后,通过将扩展的潜在空间划分为重叠的patch,我们将以物体为中心的3D生成模型应用于每个patch,并在每个时间步将它们耦合。由于带有图像条件的patch-wise 3D生成需要在图像和潜在patch之间进行严格的空间对齐,我们使用来自单目深度估计器的点云先验来初始化场景,并通过SDEdit迭代地细化遮挡区域。我们发现,在3D细化过程中将3D结构的不完整性视为噪声,可以通过一个概念实现3D补全,我们称之为欠噪声。此外,为了解决以物体为中心的模型在子场景生成中的次优性,我们在去噪过程中优化扩展的潜在空间,确保去噪轨迹与子场景动态保持一致。为此,我们引入了3D感知的优化目标,以提高几何结构和纹理的保真度。我们通过人类偏好和定量实验证明,我们的方法比以前的方法产生了更好的结果。
🔬 方法详解
问题定义:现有基于物体中心的3D生成模型在处理大规模场景时,由于其固定的潜在空间大小,难以有效地捕捉和表示整个场景的复杂结构和物体间的关系。这导致生成的3D场景在规模和细节上都存在局限性。
核心思路:Extend3D的核心思路是通过扩展潜在空间,并将其划分为重叠的patch,从而允许模型处理更大范围的场景。同时,通过在patch之间建立耦合关系,保证了场景的一致性和连贯性。此外,利用单目深度估计作为先验知识,并结合SDEdit进行迭代优化,可以有效地补全遮挡区域,提高3D结构的完整性。
技术框架:Extend3D的整体流程包括以下几个主要阶段:1) 潜在空间扩展:在x和y方向上扩展物体中心模型的潜在空间。2) Patch划分与耦合:将扩展的潜在空间划分为重叠的patch,并对每个patch应用3D生成模型,在每个时间步耦合这些patch。3) 场景初始化:使用单目深度估计器生成点云作为场景的初始结构。4) 迭代细化:通过SDEdit迭代地细化场景,并利用“欠噪声”概念进行3D补全。5) 潜在空间优化:在去噪过程中优化扩展的潜在空间,以提高几何结构和纹理的保真度。
关键创新:该方法最重要的创新点在于:1) 扩展了物体中心模型的潜在空间,使其能够处理更大规模的场景。2) 提出了“欠噪声”的概念,将3D结构的不完整性视为噪声,从而实现3D补全。3) 在去噪过程中优化潜在空间,保证了生成结果与子场景动态的一致性。
关键设计:在patch划分时,采用重叠的策略,以减少patch边界效应。在SDEdit细化过程中,使用单目深度估计作为先验,指导场景的补全。在潜在空间优化中,引入了3D感知的优化目标,包括几何结构和纹理保真度损失,以提升生成质量。
🖼️ 关键图片
📊 实验亮点
Extend3D通过人类偏好和定量实验验证了其优越性。实验结果表明,该方法在3D场景生成质量上优于现有方法,能够生成更完整、更逼真的3D场景。具体性能数据和对比基线在论文中有详细描述(未知)。
🎯 应用场景
Extend3D技术可应用于城市规划、游戏开发、虚拟现实、自动驾驶等领域。它可以根据单张图像快速生成大规模的3D城市模型,为相关应用提供高质量的3D场景数据。该技术有望降低3D场景建模的成本和时间,并促进相关领域的发展。
📄 摘要(原文)
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the $x$ and $y$ directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.