Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

📄 arXiv: 2502.03450v2 📥 PDF

作者: Yiye Chen, Harpreet Sawhney, Nicholas Gydé, Yanan Jian, Jack Saunders, Patricio Vela, Ben Lundell

分类: cs.LG, cs.AI, cs.MA, cs.RO

发布日期: 2025-02-05 (更新: 2025-08-08)

备注: In submission


💡 一句话要点

提出基于多智能体LLM的Schema引导场景图推理框架SG^2,提升复杂环境下的推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 场景图 大型语言模型 多智能体系统 推理 知识图谱

📋 核心要点

  1. 现有方法难以有效利用场景图进行复杂推理,易受无关信息干扰。
  2. 提出SG^2框架,通过多智能体协作和Schema引导,实现高效的场景图推理。
  3. 实验证明,SG^2在数值问答和规划任务中显著优于现有方法。

📝 摘要(中文)

本文提出了一种基于多智能体大型语言模型(LLM)的Schema引导场景图推理框架SG^2。该框架利用场景图作为结构化和可序列化的环境表示,用于LLM进行基于常识的空间推理。框架包含两个模块:推理器模块,用于抽象任务规划和生成图信息查询;检索器模块,用于根据查询编写代码并提取相应的图信息。这两个模块迭代协作,实现顺序推理和对图信息的自适应关注。场景图Schema不仅简化了推理和检索过程,还指导了两个模块之间的协作,避免了向LLM提供完整图数据,降低了因无关信息产生幻觉的风险。在多个模拟环境中的实验表明,该框架在数值问答和规划任务中优于现有的基于LLM的方法和基于单智能体工具的Reason-while-Retrieve策略。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂环境中进行基于场景图的推理时,容易受到无关信息干扰,导致推理效率和准确性下降的问题。现有方法通常直接将整个场景图输入LLM,这不仅增加了计算负担,也增加了LLM产生幻觉的风险。

核心思路:论文的核心思路是利用多智能体系统和场景图Schema来引导LLM进行推理。通过将推理过程分解为任务规划和信息检索两个阶段,并让不同的智能体负责不同的任务,可以有效地减少LLM需要处理的信息量,并提高推理的效率和准确性。场景图Schema则用于约束推理和检索过程,确保LLM只关注与当前任务相关的信息。

技术框架:SG^2框架包含两个主要模块:推理器模块和检索器模块。推理器模块负责抽象任务规划和生成图信息查询,它接收任务描述和场景图Schema作为输入,并输出一系列需要从场景图中检索的信息查询。检索器模块负责根据查询编写代码并提取相应的图信息,它接收推理器模块生成的查询和场景图数据作为输入,并输出与查询相关的信息。这两个模块迭代协作,直到完成整个推理过程。

关键创新:SG^2的关键创新在于:1) 采用多智能体系统,将推理过程分解为任务规划和信息检索两个阶段,降低了单个LLM的计算负担;2) 利用场景图Schema引导推理和检索过程,减少了无关信息的干扰;3) 采用迭代协作的方式,使LLM能够逐步推理并自适应地关注图信息。

关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节。推理器和检索器模块的具体实现方式(例如,使用的LLM模型、提示工程策略等)以及迭代协作的机制(例如,迭代次数、停止条件等)未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SG^2框架在数值问答和规划任务中优于现有的基于LLM的方法和基于单智能体工具的Reason-while-Retrieve策略。具体性能提升数据未知,但论文强调了SG^2在复杂推理任务中的有效性。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、自动驾驶等领域,提升智能体在复杂环境下的感知、理解和决策能力。通过场景图和LLM的结合,可以实现更智能、更可靠的人机交互和自动化系统。

📄 摘要(原文)

Scene graphs have emerged as a structured and serializable environment representation for grounded spatial reasoning with Large Language Models (LLMs). In this work, we propose SG^2, an iterative Schema-Guided Scene-Graph reasoning framework based on multi-agent LLMs. The agents are grouped into two modules: a (1) Reasoner module for abstract task planning and graph information queries generation, and a (2) Retriever module for extracting corresponding graph information based on code-writing following the queries. Two modules collaborate iteratively, enabling sequential reasoning and adaptive attention to graph information. The scene graph schema, prompted to both modules, serves to not only streamline both reasoning and retrieval process, but also guide the cooperation between two modules. This eliminates the need to prompt LLMs with full graph data, reducing the chance of hallucination due to irrelevant information. Through experiments in multiple simulation environments, we show that our framework surpasses existing LLM-based approaches and baseline single-agent, tool-based Reason-while-Retrieve strategy in numerical Q\&A and planning tasks.