SG-Reg: Generalizable and Efficient Scene Graph Registration

📄 arXiv: 2504.14440v2 📥 PDF

作者: Chuhao Liu, Zhijian Qiao, Jieqi Shi, Ke Wang, Peize Liu, Shaojie Shen

分类: cs.RO, cs.CV

发布日期: 2025-04-20 (更新: 2025-05-20)

备注: IEEE Transactions Robotics Regular Paper

🔗 代码/项目: GITHUB


💡 一句话要点

提出SG-Reg,解决语义场景图高效且泛化的配准问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义场景图 场景图配准 多模态融合 图神经网络 视觉基础模型

📋 核心要点

  1. 现有语义场景图配准方法依赖手工特征或真值标注,泛化性差,难以应用于真实环境。
  2. 设计场景图网络融合多模态语义节点信息,并采用粗到细的匹配策略和鲁棒姿态估计。
  3. 提出新的数据生成方法,摆脱对真值标注的依赖,并在双智能体SLAM基准测试中验证了有效性。

📝 摘要(中文)

本文旨在解决两个刚性语义场景图配准的挑战,这对于自主体在需要将其地图与远程代理或先验地图进行配准时至关重要。传统语义辅助配准中的手工设计描述符,或基于学习的场景图配准中对真值标注的依赖,阻碍了它们在实际真实环境中的应用。为了应对这些挑战,我们设计了一个场景图网络来编码语义节点的多种模态信息:开放集语义特征、具有空间感知的局部拓扑结构和形状特征。这些模态融合在一起以创建紧凑的语义节点特征。然后,匹配层以粗到细的方式搜索对应关系。在后端,我们采用鲁棒的姿态估计器来根据对应关系确定变换。我们设法维护了一个稀疏且分层的场景表示。我们的方法在多智能体任务中需要更少的GPU资源和更少的通信带宽。此外,我们设计了一种新的数据生成方法,使用视觉基础模型和语义映射模块来重建语义场景图。这与之前依赖于真值语义标注来生成数据的工作有很大不同。我们在一个双智能体SLAM基准测试中验证了我们的方法。在配准成功率方面,它明显优于手工设计的基线。与视觉回环闭合网络相比,我们的方法实现了略高的配准召回率,而每个查询帧仅需要52 KB的通信带宽。

🔬 方法详解

问题定义:论文旨在解决两个语义场景图的配准问题,即找到两个场景图中对应节点之间的变换关系。现有方法主要存在两个痛点:一是依赖手工设计的特征描述符,泛化能力不足;二是依赖大量的真值标注数据进行训练,数据获取成本高昂。这些问题限制了语义场景图配准在实际场景中的应用。

核心思路:论文的核心思路是设计一个能够有效提取和匹配语义场景图节点特征的网络,同时减少对真值标注的依赖。通过融合多种模态的信息(语义特征、拓扑结构、形状特征),提升节点特征的表达能力和鲁棒性。此外,采用粗到细的匹配策略,降低搜索空间,提高匹配效率。

技术框架:SG-Reg的整体框架包含以下几个主要模块:1) 场景图编码网络:用于提取语义节点的多种模态特征,包括开放集语义特征、具有空间感知的局部拓扑结构和形状特征。2) 匹配层:以粗到细的方式搜索两个场景图之间的节点对应关系。3) 姿态估计器:根据匹配的节点对应关系,估计两个场景图之间的变换矩阵。4) 数据生成模块:利用视觉基础模型和语义映射模块生成训练数据,避免对真值标注的依赖。

关键创新:论文的关键创新在于:1) 提出了一种新的场景图编码网络,能够有效融合多种模态的节点信息,提升特征表达能力。2) 设计了一种新的数据生成方法,利用视觉基础模型和语义映射模块生成训练数据,摆脱了对真值标注的依赖。3) 采用粗到细的匹配策略,提高了匹配效率。

关键设计:在场景图编码网络中,使用了图神经网络(GNN)来提取节点的拓扑结构特征。在匹配层中,首先使用全局特征进行粗略匹配,然后使用局部特征进行精细匹配。在数据生成模块中,使用了预训练的视觉基础模型(例如CLIP)来提取图像的语义特征,并使用SLAM系统构建语义地图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SG-Reg在双智能体SLAM基准测试中显著优于手工设计的基线方法,在配准成功率方面有明显提升。与视觉回环闭合网络相比,SG-Reg在保持相近配准召回率的同时,显著降低了通信带宽需求,每个查询帧仅需52KB。

🎯 应用场景

该研究成果可应用于多智能体协同SLAM、机器人地图融合、增强现实等领域。例如,在多机器人协同探索环境中,每个机器人构建自己的语义地图,然后通过SG-Reg进行地图配准,实现全局地图的构建和共享。在AR应用中,可以将虚拟物体与真实场景的语义地图进行配准,实现更自然的交互。

📄 摘要(原文)

This paper addresses the challenges of registering two rigid semantic scene graphs, an essential capability when an autonomous agent needs to register its map against a remote agent, or against a prior map. The hand-crafted descriptors in classical semantic-aided registration, or the ground-truth annotation reliance in learning-based scene graph registration, impede their application in practical real-world environments. To address the challenges, we design a scene graph network to encode multiple modalities of semantic nodes: open-set semantic feature, local topology with spatial awareness, and shape feature. These modalities are fused to create compact semantic node features. The matching layers then search for correspondences in a coarse-to-fine manner. In the back-end, we employ a robust pose estimator to decide transformation according to the correspondences. We manage to maintain a sparse and hierarchical scene representation. Our approach demands fewer GPU resources and fewer communication bandwidth in multi-agent tasks. Moreover, we design a new data generation approach using vision foundation models and a semantic mapping module to reconstruct semantic scene graphs. It differs significantly from previous works, which rely on ground-truth semantic annotations to generate data. We validate our method in a two-agent SLAM benchmark. It significantly outperforms the hand-crafted baseline in terms of registration success rate. Compared to visual loop closure networks, our method achieves a slightly higher registration recall while requiring only 52 KB of communication bandwidth for each query frame. Code available at: \href{http://github.com/HKUST-Aerial-Robotics/SG-Reg}{http://github.com/HKUST-Aerial-Robotics/SG-Reg}.