INHerit-SG: Incremental Hierarchical Semantic Scene Graphs with RAG-Style Retrieval
作者: YukTungSamuel Fang, Zhikang Shi, Jiabin Qiu, Zixuan Chen, Jieqi Shi, Hao Xu, Jing Huo, Yang Gao
分类: cs.RO
发布日期: 2026-02-13
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出INHerit-SG,通过RAG检索增强的增量式分层语义场景图,提升机器人导航中人机交互能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语义场景图 机器人导航 人机交互 大型语言模型 RAG检索
📋 核心要点
- 现有语义场景图方法依赖离线处理或隐式特征,难以进行可解释的人类意图推理,限制了其在机器人导航中的应用。
- INHerit-SG构建RAG-ready知识库,引入自然语言描述作为语义锚点,并采用异步双进程架构和事件触发更新机制,提升效率。
- 在HM3DSem-SQR数据集和真实环境的实验表明,INHerit-SG在复杂查询上达到SOTA,并展现了在导航任务中的可扩展性。
📝 摘要(中文)
本文提出INHerit-SG,旨在解决现有语义场景图方法在机器人导航中与具身任务需求不匹配的问题。现有方法依赖离线批处理或隐式特征嵌入,难以支持复杂环境中可解释的人类意图推理。INHerit-SG将地图重新定义为结构化的、支持RAG的知识库,引入自然语言描述作为显式语义锚点,以更好地对齐人类意图。采用异步双进程架构和Floor-Room-Area-Object层级结构,将几何分割与耗时的语义推理解耦。事件触发的地图更新机制仅在发生有意义的语义事件时才重组图,从而以较低的计算开销保持长期一致性。利用多角色大型语言模型(LLM)将查询分解为原子约束并处理逻辑否定,并采用由硬到软的过滤策略以确保稳健的推理。在新建数据集HM3DSem-SQR和真实环境中进行的实验表明,该系统在复杂查询上实现了最先进的性能,并展示了其在下游导航任务中的可扩展性。
🔬 方法详解
问题定义:现有语义场景图方法主要存在两个痛点:一是依赖离线批处理,无法实时更新地图;二是使用隐式特征嵌入,缺乏可解释性,难以支持复杂的人类意图推理,限制了其在机器人导航等具身智能任务中的应用。
核心思路:INHerit-SG的核心思路是将语义场景图构建为一个结构化的、支持RAG(Retrieval-Augmented Generation)的知识库,通过引入自然语言描述作为显式语义锚点,将地图与人类意图更好地对齐。同时,采用增量式更新和分层结构,提高地图构建和维护的效率。
技术框架:INHerit-SG采用异步双进程架构,包含几何分割和语义推理两个主要模块。几何分割模块负责提取场景的几何信息,构建Floor-Room-Area-Object层级结构。语义推理模块则利用大型语言模型(LLM)对场景进行语义理解,并生成自然语言描述作为语义锚点。此外,系统采用事件触发的地图更新机制,仅在发生有意义的语义事件时才更新地图。检索时,利用LLM将查询分解为原子约束,并采用由硬到软的过滤策略进行推理。
关键创新:INHerit-SG的关键创新在于:1) 将语义场景图构建为RAG-ready的知识库,引入自然语言描述作为显式语义锚点,提高了可解释性和人机交互能力;2) 采用异步双进程架构和事件触发更新机制,提高了地图构建和维护的效率;3) 利用LLM进行查询分解和推理,提高了复杂查询的准确性和鲁棒性。与现有方法相比,INHerit-SG更注重可解释性、实时性和人机交互能力。
关键设计:INHerit-SG的关键设计包括:1) Floor-Room-Area-Object层级结构,用于组织场景的几何信息;2) 基于LLM的语义推理模块,用于生成自然语言描述;3) 事件触发的地图更新机制,用于保持地图的长期一致性;4) 由硬到软的过滤策略,用于提高查询的鲁棒性。具体参数设置和网络结构等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
INHerit-SG在HM3DSem-SQR数据集和真实环境的实验中,在复杂查询任务上取得了state-of-the-art的性能。具体性能数据和对比基线在摘要中未明确给出,属于未知信息。但实验结果表明,该系统能够有效地处理复杂查询,并具备在下游导航任务中的可扩展性。
🎯 应用场景
INHerit-SG可应用于机器人导航、智能家居、虚拟现实等领域。通过提供可解释的语义场景图,该系统能够支持更自然、更智能的人机交互,使机器人能够更好地理解人类意图,并在复杂环境中执行任务。未来,该研究有望推动具身智能的发展,实现更智能、更人性化的机器人服务。
📄 摘要(原文)
Driven by advancements in foundation models, semantic scene graphs have emerged as a prominent paradigm for high-level 3D environmental abstraction in robot navigation. However, existing approaches are fundamentally misaligned with the needs of embodied tasks. As they rely on either offline batch processing or implicit feature embeddings, the maps can hardly support interpretable human-intent reasoning in complex environments. To address these limitations, we present INHerit-SG. We redefine the map as a structured, RAG-ready knowledge base where natural-language descriptions are introduced as explicit semantic anchors to better align with human intent. An asynchronous dual-process architecture, together with a Floor-Room-Area-Object hierarchy, decouples geometric segmentation from time-consuming semantic reasoning. An event-triggered map update mechanism reorganizes the graph only when meaningful semantic events occur. This strategy enables our graph to maintain long-term consistency with relatively low computational overhead. For retrieval, we deploy multi-role Large Language Models (LLMs) to decompose queries into atomic constraints and handle logical negations, and employ a hard-to-soft filtering strategy to ensure robust reasoning. This explicit interpretability improves the success rate and reliability of complex retrievals, enabling the system to adapt to a broader spectrum of human interaction tasks. We evaluate INHerit-SG on a newly constructed dataset, HM3DSem-SQR, and in real-world environments. Experiments demonstrate that our system achieves state-of-the-art performance on complex queries, and reveal its scalability for downstream navigation tasks. Project Page: https://fangyuktung.github.io/INHeritSG.github.io/