Structured Interfaces for Automated Reasoning with 3D Scene Graphs

📄 arXiv: 2510.16643v1 📥 PDF

作者: Aaron Ray, Jacob Arkin, Harel Biggie, Chuchu Fan, Luca Carlone, Nicholas Roy

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-10-18

备注: 25 pages, 3 figures


💡 一句话要点

提出基于结构化接口的3D场景图推理方法,提升LLM在机器人自然语言理解中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景图 大型语言模型 自然语言理解 机器人 图数据库 Cypher查询语言 检索增强生成 人机交互

📋 核心要点

  1. 现有方法将3D场景图序列化为文本输入LLM,无法有效处理大型复杂场景图,限制了机器人对环境的理解能力。
  2. 论文提出使用图数据库存储3D场景图,并利用Cypher查询语言作为LLM的接口,实现对场景图子集的检索增强生成。
  3. 实验表明,该方法在指令跟随和场景问答任务中,显著提升了LLM处理大型场景图的性能,并降低了token数量。

📝 摘要(中文)

为了使机器人能够理解并响应用户的自然语言输入,必须将自然语言与机器人对世界的底层表示联系起来。最近,大型语言模型(LLM)和3D场景图(3DSG)已成为自然语言 grounding 和表示世界的流行选择。本文旨在解决将 LLM 与 3DSG 结合以进行自然语言 grounding 的挑战。现有方法将场景图编码为 LLM 上下文窗口中的序列化文本,但这种编码方式无法扩展到大型或丰富的 3DSG。因此,我们提出使用一种检索增强生成方法来选择与任务相关的 3DSG 子集。我们将 3DSG 编码在图数据库中,并提供查询语言接口(Cypher)作为 LLM 的工具,以便检索用于语言 grounding 的相关数据。我们在指令跟随和场景问答任务中评估了我们的方法,并与基线上下文窗口和代码生成方法进行了比较。结果表明,使用 Cypher 作为 3D 场景图的接口,在本地和云端模型上都能更好地扩展到大型、丰富的图。这显著提高了 grounded 语言任务的性能,同时也大幅减少了场景图内容的 token 数量。

🔬 方法详解

问题定义:现有方法在将大型、复杂的3D场景图(3DSG)与大型语言模型(LLM)结合时,面临着扩展性问题。直接将整个3DSG序列化为文本输入LLM的上下文窗口,会导致token数量过多,超出LLM的处理能力,从而影响性能。因此,需要一种方法能够有效地从3DSG中提取与当前任务相关的子图,并将其提供给LLM,以实现更高效的自然语言理解和推理。

核心思路:论文的核心思路是利用图数据库来存储3DSG,并使用Cypher查询语言作为LLM与3DSG之间的结构化接口。通过Cypher查询,LLM可以根据任务需求,从3DSG中检索出相关的子图,从而避免了将整个3DSG都输入LLM的低效做法。这种检索增强生成(Retrieval Augmented Generation)的方法,能够显著减少token数量,并提高LLM在处理大型3DSG时的效率和准确性。

技术框架:该方法的技术框架主要包括以下几个部分:1) 3D场景图的构建:使用SLAM或其他方法构建3D场景图,其中节点表示对象或区域,边表示它们之间的关系。2) 图数据库存储:将3D场景图存储在图数据库中,例如Neo4j。3) Cypher查询接口:提供Cypher查询接口,允许LLM通过结构化的查询语句来访问图数据库。4) LLM集成:将LLM与Cypher查询接口集成,LLM可以根据自然语言输入,生成相应的Cypher查询语句,并执行查询,获取相关的场景图信息。5) 答案生成:LLM根据检索到的场景图信息,生成最终的答案或执行相应的动作。

关键创新:该方法最重要的技术创新点在于使用结构化的查询语言(Cypher)作为LLM与3D场景图之间的接口。与直接将场景图序列化为文本相比,这种方法能够更有效地提取与任务相关的子图,从而显著减少token数量,并提高LLM的推理效率。此外,该方法还能够更好地利用场景图的结构化信息,从而提高LLM的理解能力。

关键设计:关键设计包括:1) Cypher查询语句的设计:需要设计合适的Cypher查询语句,以便LLM能够根据不同的任务需求,检索到相关的场景图信息。2) LLM与Cypher查询接口的集成:需要设计合适的机制,使得LLM能够有效地生成Cypher查询语句,并解析查询结果。3) 图数据库的选择:需要选择合适的图数据库,以满足存储和查询3D场景图的需求。4) 损失函数:可以使用交叉熵损失函数来训练LLM生成正确的Cypher查询语句。

📊 实验亮点

实验结果表明,使用Cypher作为3D场景图的接口,在指令跟随和场景问答任务中,显著优于基线方法。与直接将场景图序列化为文本输入LLM相比,该方法能够更好地扩展到大型、丰富的图,并大幅减少token数量。在本地和云端模型上都取得了性能提升,验证了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于机器人导航、场景理解、人机交互等领域。例如,机器人可以根据用户的自然语言指令,通过查询3D场景图,理解指令中的目标对象和位置关系,从而完成相应的任务。此外,该方法还可以用于智能家居、自动驾驶等领域,提升系统的智能化水平。

📄 摘要(原文)

In order to provide a robot with the ability to understand and react to a user's natural language inputs, the natural language must be connected to the robot's underlying representations of the world. Recently, large language models (LLMs) and 3D scene graphs (3DSGs) have become a popular choice for grounding natural language and representing the world. In this work, we address the challenge of using LLMs with 3DSGs to ground natural language. Existing methods encode the scene graph as serialized text within the LLM's context window, but this encoding does not scale to large or rich 3DSGs. Instead, we propose to use a form of Retrieval Augmented Generation to select a subset of the 3DSG relevant to the task. We encode a 3DSG in a graph database and provide a query language interface (Cypher) as a tool to the LLM with which it can retrieve relevant data for language grounding. We evaluate our approach on instruction following and scene question-answering tasks and compare against baseline context window and code generation methods. Our results show that using Cypher as an interface to 3D scene graphs scales significantly better to large, rich graphs on both local and cloud-based models. This leads to large performance improvements in grounded language tasks while also substantially reducing the token count of the scene graph content. A video supplement is available at https://www.youtube.com/watch?v=zY_YI9giZSA.