SceneAligner: 3D-Grounded Floorplan Localization in the Wild
作者: Junhyeong Cho, Ruojin Cai, Hadar Averbuch-Elor
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-05-21
备注: Project Page: https://Cornell-VAILab.github.io/SceneAligner
💡 一句话要点
SceneAligner:基于3D场景重建的室外环境平面图定位方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 平面图定位 3D场景重建 跨模态学习 图像配准 机器人导航
📋 核心要点
- 现有方法依赖于精确的矢量化平面图和受控环境,无法处理大型建筑和栅格化平面图。
- 核心思想是利用3D重建技术,将多张图片重建为3D场景,并投影为2D密度图作为平面图的代理。
- 实验结果表明,该方法在稀疏图像条件下也能显著优于现有方法,性能提升明显。
📝 摘要(中文)
许多公共建筑提供带有“你在这里”指示的平面图,以帮助访客确定方向。平面图定位旨在通过确定视觉观察在平面图中的捕获位置,以计算方式复制此功能。然而,现有方法通常假设受控的小规模环境和精确的矢量化平面图,限制了它们在大型建筑物和栅格化平面图中运行的能力。本文提出了一种通过将任务置于场景的重建3D表示中,从而在室外环境中执行平面图定位的方法。给定一个无约束的图像集合,我们的方法重建一个重力对齐的3D场景,并将其投影到2D密度图中,该密度图用作平面图代理。然后,平面图定位被表述为通过2D相似性变换将此代理与输入平面图对齐。为了弥合密度图和建筑平面图之间的外观差距,我们调整了一个2D基础模型来学习跨模态对应关系,引入了一种微调方案,该方案鼓励语义对齐的匹配,同时保持结构一致性。大量实验表明,相对于先前的方法,包括在极稀疏的设置中(仅使用单个输入图像),性能得到了显着提高。我们的代码和数据将公开提供。
🔬 方法详解
问题定义:平面图定位旨在确定图像在给定平面图中的位置。现有方法通常依赖于精确的矢量化平面图,并且在受控的小规模环境中表现良好。然而,在大型建筑物和栅格化平面图中,由于数据稀疏、噪声干扰以及平面图本身的不精确性,现有方法的性能会显著下降。因此,如何在真实、无约束的环境中实现鲁棒的平面图定位是一个关键问题。
核心思路:本文的核心思路是将平面图定位问题转化为一个3D场景重建和2D对齐问题。首先,利用无约束的图像集合重建一个重力对齐的3D场景。然后,将该3D场景投影到一个2D密度图中,作为平面图的代理。最后,通过2D相似性变换将该密度图与输入的平面图对齐,从而实现平面图定位。这种方法的核心在于利用3D信息来增强平面图定位的鲁棒性,并弥合了图像和平面图之间的外观差异。
技术框架:该方法主要包含以下几个阶段:1) 3D场景重建:利用输入的图像集合重建一个重力对齐的3D场景。2) 2D密度图生成:将重建的3D场景投影到一个2D密度图中,作为平面图的代理。3) 跨模态特征学习:利用2D基础模型学习密度图和平面图之间的跨模态对应关系。4) 2D对齐:通过2D相似性变换将密度图与输入的平面图对齐,从而实现平面图定位。
关键创新:该方法最重要的技术创新点在于将平面图定位问题与3D场景重建相结合。通过利用3D信息,该方法能够更好地处理数据稀疏、噪声干扰以及平面图不精确等问题。此外,该方法还引入了一种微调方案,鼓励语义对齐的匹配,同时保持结构一致性,从而进一步提高了平面图定位的准确性。
关键设计:为了弥合密度图和建筑平面图之间的外观差距,作者使用了一个2D基础模型,并通过微调来学习跨模态对应关系。微调过程中的损失函数设计至关重要,需要平衡语义对齐和结构一致性。具体的网络结构和参数设置在论文中有详细描述,但此处未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在平面图定位任务上取得了显著的性能提升,尤其是在极稀疏的图像条件下,例如仅使用单张图像时,仍然能够实现较为准确的定位。与现有方法相比,该方法在多个数据集上都取得了更好的结果,证明了其有效性和鲁棒性。具体的性能数据和对比基线在论文中有详细描述,但此处未知。
🎯 应用场景
该研究成果可应用于室内导航、机器人定位、增强现实等领域。例如,在大型商场或机场,用户可以通过手机摄像头拍摄周围环境,系统即可自动定位用户在平面图上的位置,并提供导航服务。此外,该技术还可以用于机器人自主导航,帮助机器人在未知环境中进行定位和路径规划。未来,该技术有望与SLAM等技术相结合,实现更精确、更鲁棒的定位和导航。
📄 摘要(原文)
Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.