LEXI-SG: Monocular 3D Scene Graph Mapping with Room-Guided Feed-Forward Reconstruction

📄 arXiv: 2605.13741v1 📥 PDF

作者: Christina Kassab, Hyeonjae Gil, Matías Mattamala, Ayoung Kim, Maurice Fallon

分类: cs.RO, cs.CV

发布日期: 2026-05-13

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LEXI-SG:基于单目RGB相机的房间引导前馈重建三维场景图构建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目视觉 三维场景图 语义SLAM 开放词汇分割 房间分割 因子图优化

📋 核心要点

  1. 现有场景图构建方法依赖深度相机或激光雷达,限制了其应用场景和成本。
  2. LEXI-SG利用开放词汇模型的语义先验,将场景分解为房间,延迟重建以提高尺度一致性。
  3. 实验表明,LEXI-SG在轨迹估计、密集重建和开放词汇分割方面均表现出竞争力。

📝 摘要(中文)

本文提出LEXI-SG,这是一个仅使用RGB相机输入,用于开放词汇三维场景图的首个密集单目视觉建图系统。该方法利用开放词汇基础模型的语义先验将场景划分为房间,并将前馈重建推迟到每个房间都被完全观察到时进行,从而实现可扩展的密集建图,避免了滑动窗口尺度不一致问题。论文提出了一种基于房间的因子图公式,以全局对齐房间重建,同时保持局部地图一致性,并自然地施加语义场景图层次结构。在每个房间内,进一步支持开放词汇对象分割和跟踪。在Habitat-Matterport 3D和自收集的以自我为中心的办公室序列的室内场景中验证了LEXI-SG。评估了其性能,并与现有的前馈SLAM方法以及已建立的场景图基线进行了比较。结果表明,轨迹估计和密集重建得到了改善,并且在开放词汇分割方面具有竞争力的性能。LEXI-SG表明,仅从单目RGB相机即可实现准确、可扩展的开放词汇三维场景图。

🔬 方法详解

问题定义:现有场景图构建方法主要依赖深度相机或激光雷达等传感器获取深度信息,这限制了其在资源受限或视觉退化环境中的应用。此外,基于滑动窗口的单目SLAM方法容易出现尺度漂移问题,影响地图的全局一致性。

核心思路:LEXI-SG的核心思路是利用开放词汇模型的语义先验知识,将场景分割成独立的房间,并在每个房间被充分观测后进行局部重建。通过房间级的全局对齐,可以有效减少尺度漂移,并构建具有层次结构的场景图。

技术框架:LEXI-SG系统主要包含以下几个阶段:1) 图像输入与特征提取:使用单目RGB图像作为输入,利用预训练的视觉模型提取图像特征。2) 房间分割:利用开放词汇模型的语义信息,将场景分割成不同的房间。3) 房间局部重建:在每个房间内,使用前馈重建方法进行局部三维重建。4) 房间全局对齐:使用基于房间的因子图优化方法,对齐各个房间的局部地图,构建全局一致的场景图。5) 开放词汇对象分割与跟踪:在每个房间内,进行开放词汇的对象分割和跟踪。

关键创新:LEXI-SG的关键创新在于:1) 提出了一种基于房间的场景图构建方法,有效解决了单目SLAM中的尺度漂移问题。2) 利用开放词汇模型的语义先验,实现了无需深度信息的场景理解和分割。3) 提出了一种基于房间的因子图优化方法,实现了全局一致的场景图构建。

关键设计:房间分割模块利用预训练的视觉语言模型(如CLIP)提取图像的语义特征,并使用聚类算法将具有相似语义特征的像素聚类成不同的房间。因子图优化模块使用房间之间的几何约束(如相对位姿)和语义约束(如房间之间的连接关系)构建因子图,并使用非线性优化算法求解最优的房间位姿。

📊 实验亮点

实验结果表明,LEXI-SG在Habitat-Matterport 3D和自收集的办公室序列上,相比于现有的前馈SLAM方法,轨迹估计精度和密集重建质量均有显著提升。同时,在开放词汇分割任务中,LEXI-SG也取得了具有竞争力的性能,验证了其在单目RGB图像上构建高质量场景图的能力。

🎯 应用场景

LEXI-SG可应用于室内机器人导航、增强现实、虚拟现实等领域。该系统仅需单目RGB相机即可构建精确的三维场景图,降低了硬件成本,并提高了在视觉退化环境中的鲁棒性。未来可进一步扩展到室外环境,实现更广泛的应用。

📄 摘要(原文)

Scene graphs are becoming a standard representation for robot navigation, providing hierarchical geometric and semantic scene understanding. However, most scene graph mapping methods rely on depth cameras or LiDAR sensors. In this work, we present LEXI-SG, the first dense monocular visual mapping system for open-vocabulary 3D scene graphs using only RGB camera input. Our approach exploits the semantic priors of open-vocabulary foundation models to partition the scene into rooms, deferring feed-forward reconstruction to when each room is fully observed -- enabling scalable dense mapping without sliding-window scale inconsistencies. We propose a room-based factor graph formulation to globally align room reconstructions while preserving local map consistency and naturally imposing the semantic scene graph hierarchy. Within each room, we further support open-vocabulary object segmentation and tracking. We validate LEXI-SG on indoor scenes from the Habitat-Matterport 3D and self-collected egocentric office sequences. We evaluate its performance against existing feed-forward SLAM methods, as well as established scene graphs baselines. We demonstrate improved trajectory estimation and dense reconstruction, as well as, competitive performance in open-vocabulary segmentation. LEXI-SG shows that accurate, scalable, open-vocabulary 3D scene graphs can be achieved from monocular RGB alone. Our project page and office sequences are available here: https://ori-drs.github.io/lexisg-web/.