Scene Grounding In the Wild
作者: Tamir Cohen, Leo Segre, Shay Shomer-Chai, Shai Avidan, Hadar Averbuch-Elor
分类: cs.CV
发布日期: 2026-03-27
备注: Project page at https://tau-vailab.github.io/SceneGround/
💡 一句话要点
提出基于语义对齐的场景Grounding框架,解决大规模场景三维重建难题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维重建 场景Grounding 语义对齐 伪合成数据 3D高斯溅射
📋 核心要点
- 现有三维重建方法在处理缺乏视觉重叠的大规模真实场景时,容易产生多个不连贯的部分重建或错误地合并非重叠区域。
- 该方法的核心思想是利用场景语义信息,将部分重建模型与从Google Earth Studio获得的伪合成参考模型进行对齐,实现全局一致的配准。
- 实验表明,该方法能够有效改善全局对齐效果,并缓解现有端到端模型的不足,同时发布了WikiEarth数据集。
📝 摘要(中文)
本文提出了一种框架,用于将部分重建的三维模型与完整的场景参考模型进行对齐,从而实现全局一致的配准,即使在缺乏视觉重叠的情况下也能有效工作。该方法利用从Google Earth Studio获得的密集、具有地理空间精度的伪合成渲染作为参考模型。尽管真实图像与参考模型存在显著的领域差异,但它们共享相同的场景语义。该方法使用3D高斯溅射表示参考模型,并用语义特征增强每个高斯分布。对齐被形式化为一个基于逆特征的优化方案,用于估计全局6DoF位姿和尺度,同时保持参考模型固定。此外,本文还引入了WikiEarth数据集,该数据集将现有的部分3D重建与伪合成参考模型进行注册。实验结果表明,该方法能够持续改进全局对齐效果,并减轻现有端到端模型的失效模式。
🔬 方法详解
问题定义:论文旨在解决从无结构的、真实场景图像中重建精确的大规模三维模型的问题,尤其是在输入视图之间几乎没有或没有重叠的情况下。现有的重建流程在这种情况下通常会产生多个不连贯的部分重建,或者错误地将非重叠区域合并到重叠的几何体中,导致重建结果不准确。
核心思路:论文的核心思路是利用场景的语义信息,将每个部分重建与场景的完整参考模型进行对齐,从而实现全局一致的配准。即使在缺乏视觉重叠的情况下,也能通过语义信息建立对应关系,从而避免重建错误。
技术框架:整体框架包括以下几个主要步骤:1) 获取场景的伪合成参考模型,例如使用Google Earth Studio生成具有地理空间精度的渲染图;2) 使用3D高斯溅射表示参考模型,并为每个高斯分布添加语义特征;3) 将部分重建模型与参考模型进行对齐,这是一个基于逆特征的优化问题,目标是估计部分重建模型的全局6DoF位姿和尺度,同时保持参考模型固定。
关键创新:最重要的技术创新点在于利用伪合成数据作为参考模型,并通过语义特征建立真实图像与伪合成数据之间的对应关系。这种方法克服了真实图像与伪合成数据之间巨大的领域差异,使得即使在缺乏视觉重叠的情况下也能实现准确的配准。
关键设计:关键设计包括:1) 使用3D高斯溅射表示参考模型,这种表示方法能够有效地捕捉场景的几何和外观信息;2) 使用语义特征增强每个高斯分布,从而建立真实图像与伪合成数据之间的语义对应关系;3) 将对齐问题形式化为一个基于逆特征的优化问题,通过最小化真实图像特征与参考模型特征之间的差异来估计部分重建模型的位姿和尺度。
🖼️ 关键图片
📊 实验亮点
论文引入了WikiEarth数据集,并将提出的方法与现有的经典和基于学习的pipeline进行了比较。实验结果表明,该方法能够持续改进全局对齐效果,并减轻现有端到端模型的失效模式。具体性能数据和提升幅度在论文中进行了详细展示,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于城市建模、自动驾驶、机器人导航等领域。通过将不完整的、来自不同来源的三维重建数据与全局参考模型对齐,可以构建更完整、更准确的场景模型,为相关应用提供更好的基础数据。未来,该方法可以扩展到其他类型的场景和数据,例如室内场景和激光雷达数据。
📄 摘要(原文)
Reconstructing accurate 3D models of large-scale real-world scenes from unstructured, in-the-wild imagery remains a core challenge in computer vision, especially when the input views have little or no overlap. In such cases, existing reconstruction pipelines often produce multiple disconnected partial reconstructions or erroneously merge non-overlapping regions into overlapping geometry. In this work, we propose a framework that grounds each partial reconstruction to a complete reference model of the scene, enabling globally consistent alignment even in the absence of visual overlap. We obtain reference models from dense, geospatially accurate pseudo-synthetic renderings derived from Google Earth Studio. These renderings provide full scene coverage but differ substantially in appearance from real-world photographs. Our key insight is that, despite this significant domain gap, both domains share the same underlying scene semantics. We represent the reference model using 3D Gaussian Splatting, augmenting each Gaussian with semantic features, and formulate alignment as an inverse feature-based optimization scheme that estimates a global 6DoF pose and scale while keeping the reference model fixed. Furthermore, we introduce the WikiEarth dataset, which registers existing partial 3D reconstructions with pseudo-synthetic reference models. We demonstrate that our approach consistently improves global alignment when initialized with various classical and learning-based pipelines, while mitigating failure modes of state-of-the-art end-to-end models. All code and data will be released.