OpenSGA: Efficient 3D Scene Graph Alignment in the Open World

📄 arXiv: 2605.10484v1 📥 PDF

作者: Gang Chen, Sebastián Barbas Laina, Stefan Leutenegger, Javier Alonso-Mora

分类: cs.CV, cs.RO

发布日期: 2026-05-11

备注: 13 figures


💡 一句话要点

提出OpenSGA框架:通过多模态融合与空间上下文实现开放世界高效3D场景图对齐

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景图 场景对齐 多模态融合 开放世界感知 机器人定位 视觉语言模型

📋 核心要点

  1. 现有方法主要依赖几何特征,缺乏对视觉-语言特征的利用,且在帧到扫描(F2S)对齐任务上研究不足,难以应对开放世界场景。
  2. 提出OpenSGA框架,通过融合多模态特征与空间上下文,利用距离门控空间注意力编码器和最小费用流分配器实现鲁棒的物体对应关系预测。
  3. 构建了大规模ScanNet-SG数据集,涵盖超70万样本与数千种物体类别,实验证明该方法在F2S和S2S任务中均取得了显著的性能提升。

📝 摘要(中文)

场景图对齐旨在建立两个部分重叠的3D场景图之间的物体对应关系,这对机器人重访定位、长期记忆构建及多智能体地图融合至关重要。现有方法多局限于子扫描到子扫描(S2S)对齐,且过度依赖几何点云特征,忽略了帧到扫描(F2S)对齐及开放集视觉-语言特征的潜力。此外,现有数据集规模小、类别单一,限制了模型泛化能力。本文提出了OpenSGA,一个统一且高效的场景图对齐框架,通过融合视觉-语言、文本及几何特征与空间上下文,实现了高精度的对齐。我们还构建了ScanNet-SG数据集,包含70万个样本、509个ScanNet类别及3000多个GPT-4o标注类别。实验表明,OpenSGA在F2S和S2S任务上均显著优于现有方法。

🔬 方法详解

问题定义:论文旨在解决机器人导航与感知中的3D场景图对齐问题,即在不同观测视角或时间点下,识别两个场景图中的相同物体。现有方法痛点在于过度依赖几何特征,导致在缺乏几何重叠或存在大坐标偏差时对齐失效,且缺乏对开放词汇语义信息的利用。

核心思路:引入多模态融合策略,将视觉-语言模型(VLM)提取的语义特征与几何特征结合,并利用空间上下文信息增强对齐的鲁棒性,从而在开放世界环境下实现更准确的物体匹配。

技术框架:框架包含三个核心模块:距离门控空间注意力编码器(Distance-gated Spatial Attention Encoder)用于提取上下文感知的节点特征;最小费用流分配器(Minimum-cost-flow-based Allocator)用于求解全局最优的物体对应关系;以及全局场景嵌入生成器,用于处理大规模场景的对齐任务。

关键创新:首次将开放集视觉-语言特征引入场景图对齐,并设计了能够处理大规模坐标偏差的统一对齐架构,显著提升了跨模态匹配的准确性。

关键设计:采用基于GPT-4o的自动化标注流程构建ScanNet-SG数据集,利用距离门控机制动态调整空间注意力权重,并通过最小费用流算法确保匹配结果的全局一致性与最优性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OpenSGA在F2S和S2S对齐任务上均表现出卓越性能。实验结果显示,该方法在处理大规模坐标偏差和多样化物体类别时,显著优于现有的几何基准方法。通过ScanNet-SG数据集的训练,模型在开放词汇场景下的匹配准确率大幅提升,验证了多模态特征融合在场景图对齐中的核心优势。

🎯 应用场景

该研究在机器人领域具有广泛应用价值,特别适用于需要长期记忆的自主移动机器人。它能显著提升机器人在复杂环境下的重定位精度、多智能体协同建图的融合效率,以及在长时任务中对环境物体的语义理解能力,为实现更智能的交互式机器人提供技术支撑。

📄 摘要(原文)

Scene graph alignment establishes object correspondences between two 3D scene graphs constructed from partially overlapping observations. This enables efficient scene understanding and object-level relocalization when a robot revisits a place, as well as global map fusion across multiple agents. Such capabilities are essential for robots that require long-term memory for long-horizon tasks involving interactions with the environment. Existing approaches mainly focus on subscan-to-subscan (S2S) alignment and depend heavily on geometric point-cloud features, leaving frame-to-scan (F2S) alignment and open-set vision-language features underexplored. In addition, existing datasets for scene graph alignment remain small-scale with limited object diversity, constraining systematic training and evaluation. We present a unified and efficient scene graph alignment framework that predicts object correspondences by fusing vision-language, textual, and geometric features with spatial context. The framework comprises modules such as a distance-gated spatial attention encoder, a minimum-cost-flow-based allocator, and a global scene embedding generator to achieve accurate alignment even under large coordinate discrepancies. We further introduce ScanNet-SG, a large-scale dataset generated via an automated annotation pipeline with over 700k samples, covering 509 object categories from ScanNet labels and over 3k categories from GPT-4o-based tagging. Experiments show that our method achieves the best overall performance on both F2S and S2S tasks, substantially outperforming existing scene graph alignment methods. Our code and dataset are released at: https://autonomousrobots.nl/paper_websites/opensga.