Scene Grounding In the Wild

作者: Tamir Cohen, Leo Segre, Shay Shomer-Chai, Shai Avidan, Hadar Averbuch-Elor

分类: cs.CV

发布日期: 2026-04-06

💡 一句话要点

提出基于语义对齐的场景定位框架，解决野外场景三维重建难题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 场景定位 三维重建 语义对齐 伪合成数据 3D高斯溅射

📋 核心要点

现有三维重建方法在处理缺乏重叠的野外图像时，容易产生多个不连贯的局部重建或错误地合并非重叠区域。
该方法利用Google Earth Studio的伪合成渲染作为参考模型，通过语义特征对齐实现局部重建的全局一致性。
提出的WikiEarth数据集促进了相关研究，实验证明该方法能有效改善全局对齐，并缓解现有模型的不足。

📝 摘要（中文）

本文提出了一种框架，用于将每个局部重建与场景的完整参考模型对齐，从而即使在缺乏视觉重叠的情况下也能实现全局一致的对齐。参考模型来自Google Earth Studio生成的密集、地理空间精确的伪合成渲染。这些渲染提供了完整的场景覆盖，但在外观上与真实照片差异很大。核心思想是，尽管存在显著的领域差距，但两个领域共享相同的底层场景语义。使用3D高斯溅射表示参考模型，并用语义特征增强每个高斯，并将对齐表示为基于反向特征的优化方案，该方案在保持参考模型固定的同时估计全局6DoF姿态和尺度。此外，引入了WikiEarth数据集，该数据集将现有的局部3D重建与伪合成参考模型进行注册。实验表明，该方法在用各种经典和基于学习的pipeline初始化时，始终能改善全局对齐，同时减轻最先进的端到端模型的失效模式。

🔬 方法详解

问题定义：论文旨在解决从无结构的野外图像中重建大规模真实世界场景的精确3D模型的问题，尤其是在输入视图几乎没有或没有重叠的情况下。现有重建流程通常会产生多个不连贯的局部重建，或者错误地将非重叠区域合并到重叠的几何体中，导致全局不一致。

核心思路：核心思路是利用伪合成渲染作为参考模型，将每个局部重建与该参考模型对齐。即使真实图像与参考模型之间存在显著的领域差距，它们仍然共享相同的底层场景语义。通过语义特征对齐，可以在缺乏视觉重叠的情况下实现全局一致的对齐。

技术框架：该框架包含以下主要步骤：1) 获取来自Google Earth Studio的伪合成渲染作为参考模型。2) 使用3D高斯溅射表示参考模型，并为每个高斯添加语义特征。3) 将对齐问题建模为基于反向特征的优化问题，该问题估计全局6DoF姿态和尺度，同时保持参考模型固定。4) 使用各种经典和基于学习的pipeline初始化局部重建，并使用提出的方法进行全局对齐。

关键创新：最重要的技术创新点在于利用语义信息跨越真实图像和伪合成渲染之间的领域差距，实现全局一致的场景定位。与现有方法相比，该方法不需要输入视图之间的视觉重叠，并且能够减轻端到端模型的失效模式。

关键设计：关键设计包括：1) 使用3D高斯溅射表示参考模型，以便进行高效的渲染和优化。2) 使用语义特征（例如，从预训练的语义分割模型中提取的特征）来增强每个高斯，以便进行语义对齐。3) 使用基于反向特征的优化方案来估计全局6DoF姿态和尺度，该方案最小化真实图像和参考模型之间的语义特征差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在WikiEarth数据集上能够显著改善全局对齐。与使用经典和基于学习的pipeline初始化的结果相比，该方法能够 consistently 提高对齐精度，并减轻最先进的端到端模型的失效模式。具体性能数据未知，但定性结果显示了明显的改进。

🎯 应用场景

该研究成果可应用于城市建模、自动驾驶、增强现实等领域。通过将局部重建与全局参考模型对齐，可以提高三维重建的精度和鲁棒性，从而为相关应用提供更可靠的数据基础。未来，该方法可以扩展到处理更大规模、更复杂的场景，并与其他传感器数据（例如，激光雷达）融合，以进一步提高重建质量。

📄 摘要（原文）

Reconstructing accurate 3D models of large-scale real-world scenes from unstructured, in-the-wild imagery remains a core challenge in computer vision, especially when the input views have little or no overlap. In such cases, existing reconstruction pipelines often produce multiple disconnected partial reconstructions or erroneously merge non-overlapping regions into overlapping geometry. In this work, we propose a framework that grounds each partial reconstruction to a complete reference model of the scene, enabling globally consistent alignment even in the absence of visual overlap. We obtain reference models from dense, geospatially accurate pseudo-synthetic renderings derived from Google Earth Studio. These renderings provide full scene coverage but differ substantially in appearance from real-world photographs. Our key insight is that, despite this significant domain gap, both domains share the same underlying scene semantics. We represent the reference model using 3D Gaussian Splatting, augmenting each Gaussian with semantic features, and formulate alignment as an inverse feature-based optimization scheme that estimates a global 6DoF pose and scale while keeping the reference model fixed. Furthermore, we introduce the WikiEarth dataset, which registers existing partial 3D reconstructions with pseudo-synthetic reference models. We demonstrate that our approach consistently improves global alignment when initialized with various classical and learning-based pipelines, while mitigating failure modes of state-of-the-art end-to-end models.

Scene Grounding In the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理