SceneAligner: 3D-Grounded Floorplan Localization in the Wild

作者: Junhyeong Cho, Ruojin Cai, Hadar Averbuch-Elor

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-21

备注: Project Page: https://Cornell-VAILab.github.io/SceneAligner

💡 一句话要点

SceneAligner：基于3D场景重建的室外环境平面图定位方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 平面图定位 3D场景重建 跨模态学习 图像配准 机器人导航

📋 核心要点

现有方法依赖于精确的矢量化平面图和受控环境，无法处理大型建筑和栅格化平面图。
核心思想是利用3D重建技术，将多张图片重建为3D场景，并投影为2D密度图作为平面图的代理。
实验结果表明，该方法在稀疏图像条件下也能显著优于现有方法，性能提升明显。

📝 摘要（中文）

许多公共建筑提供带有“你在这里”指示的平面图，以帮助访客确定方向。平面图定位旨在通过确定视觉观察在平面图中的捕获位置，以计算方式复制此功能。然而，现有方法通常假设受控的小规模环境和精确的矢量化平面图，限制了它们在大型建筑物和栅格化平面图中运行的能力。本文提出了一种通过将任务置于场景的重建3D表示中，从而在室外环境中执行平面图定位的方法。给定一个无约束的图像集合，我们的方法重建一个重力对齐的3D场景，并将其投影到2D密度图中，该密度图用作平面图代理。然后，平面图定位被表述为通过2D相似性变换将此代理与输入平面图对齐。为了弥合密度图和建筑平面图之间的外观差距，我们调整了一个2D基础模型来学习跨模态对应关系，引入了一种微调方案，该方案鼓励语义对齐的匹配，同时保持结构一致性。大量实验表明，相对于先前的方法，包括在极稀疏的设置中（仅使用单个输入图像），性能得到了显着提高。我们的代码和数据将公开提供。

🔬 方法详解

问题定义：平面图定位旨在确定图像在给定平面图中的位置。现有方法通常依赖于精确的矢量化平面图，并且在受控的小规模环境中表现良好。然而，在大型建筑物和栅格化平面图中，由于数据稀疏、噪声干扰以及平面图本身的不精确性，现有方法的性能会显著下降。因此，如何在真实、无约束的环境中实现鲁棒的平面图定位是一个关键问题。

核心思路：本文的核心思路是将平面图定位问题转化为一个3D场景重建和2D对齐问题。首先，利用无约束的图像集合重建一个重力对齐的3D场景。然后，将该3D场景投影到一个2D密度图中，作为平面图的代理。最后，通过2D相似性变换将该密度图与输入的平面图对齐，从而实现平面图定位。这种方法的核心在于利用3D信息来增强平面图定位的鲁棒性，并弥合了图像和平面图之间的外观差异。

技术框架：该方法主要包含以下几个阶段：1) 3D场景重建：利用输入的图像集合重建一个重力对齐的3D场景。2) 2D密度图生成：将重建的3D场景投影到一个2D密度图中，作为平面图的代理。3) 跨模态特征学习：利用2D基础模型学习密度图和平面图之间的跨模态对应关系。4) 2D对齐：通过2D相似性变换将密度图与输入的平面图对齐，从而实现平面图定位。

关键创新：该方法最重要的技术创新点在于将平面图定位问题与3D场景重建相结合。通过利用3D信息，该方法能够更好地处理数据稀疏、噪声干扰以及平面图不精确等问题。此外，该方法还引入了一种微调方案，鼓励语义对齐的匹配，同时保持结构一致性，从而进一步提高了平面图定位的准确性。

关键设计：为了弥合密度图和建筑平面图之间的外观差距，作者使用了一个2D基础模型，并通过微调来学习跨模态对应关系。微调过程中的损失函数设计至关重要，需要平衡语义对齐和结构一致性。具体的网络结构和参数设置在论文中有详细描述，但此处未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在平面图定位任务上取得了显著的性能提升，尤其是在极稀疏的图像条件下，例如仅使用单张图像时，仍然能够实现较为准确的定位。与现有方法相比，该方法在多个数据集上都取得了更好的结果，证明了其有效性和鲁棒性。具体的性能数据和对比基线在论文中有详细描述，但此处未知。

🎯 应用场景

该研究成果可应用于室内导航、机器人定位、增强现实等领域。例如，在大型商场或机场，用户可以通过手机摄像头拍摄周围环境，系统即可自动定位用户在平面图上的位置，并提供导航服务。此外，该技术还可以用于机器人自主导航，帮助机器人在未知环境中进行定位和路径规划。未来，该技术有望与SLAM等技术相结合，实现更精确、更鲁棒的定位和导航。

📄 摘要（原文）

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.

SceneAligner: 3D-Grounded Floorplan Localization in the Wild

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理