EmbodiedRAG: Dynamic 3D Scene Graph Retrieval for Efficient and Scalable Robot Task Planning

📄 arXiv: 2410.23968v1 📥 PDF

作者: Meghan Booker, Grayson Byrd, Bethany Kemp, Aurora Schmidt, Corban Rivera

分类: cs.RO

发布日期: 2024-10-31


💡 一句话要点

EmbodiedRAG:用于高效可扩展机器人任务规划的动态3D场景图检索

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 机器人规划 大型语言模型 3D场景图 检索增强生成

📋 核心要点

  1. 基于LLM的机器人规划面临环境规模扩大和场景图信息复杂化带来的挑战,直接输入完整3D场景图会导致token数量超限和注意力偏差。
  2. EmbodiedRAG通过动态检索与任务相关的3D场景子图,减少LLM的输入负担,并能根据环境和任务变化调整检索内容。
  3. 实验表明,EmbodiedRAG显著降低了token数量和规划时间,同时提高了任务成功率,并在真实机器人平台上验证了其有效性。

📝 摘要(中文)

本文提出EmbodiedRAG,一个用于增强基于大型语言模型(LLM)的机器人规划器的3D场景子图检索框架,旨在执行自然语言机器人任务。该框架受检索增强生成(RAG)方法的启发,能够根据环境和任务相关性的变化动态检索子图。实验结果表明,EmbodiedRAG能够显著减少输入token数量(一个数量级)和规划时间(平均每个规划步骤最多减少70%),同时提高在AI2Thor模拟家庭任务中的成功率。此外,还在配备机械臂的四足机器人上部署了EmbodiedRAG,突出了其在边缘机器人部署中的性能优势。

🔬 方法详解

问题定义:现有的基于LLM的机器人规划方法在处理大规模、复杂的3D场景时,直接将整个3D场景图输入LLM,导致输入token数量过多,超出LLM的处理能力,同时引入了不必要的环境信息,影响规划效率和准确性。这种方法无法很好地适应环境变化和任务需求的变化。

核心思路:EmbodiedRAG的核心思路是借鉴检索增强生成(RAG)的思想,只将与当前任务相关的3D场景子图提供给LLM,从而减少输入token数量,提高规划效率和准确性。通过动态检索子图,EmbodiedRAG能够适应环境变化和任务需求的变化。

技术框架:EmbodiedRAG框架包含以下主要模块:1) 3D场景图构建与维护:维护机器人环境的3D场景图,包括实体、属性和关系等信息。2) 查询生成:根据当前任务和机器人状态,生成查询语句,用于检索相关的3D场景子图。3) 子图检索:根据查询语句,从3D场景图中检索相关的子图。4) LLM规划:将检索到的子图输入LLM,生成机器人执行计划。5) 计划执行与反馈:执行机器人计划,并根据执行结果更新3D场景图和调整查询策略。

关键创新:EmbodiedRAG的关键创新在于将RAG方法应用于具身智能领域,通过动态检索3D场景子图来增强LLM的机器人规划能力。与直接输入完整3D场景图的方法相比,EmbodiedRAG能够显著减少输入token数量,提高规划效率和准确性。此外,EmbodiedRAG能够根据环境变化和任务需求的变化动态调整检索策略,具有更好的适应性。

关键设计:EmbodiedRAG的关键设计包括:1) 查询生成策略:如何根据任务和机器人状态生成有效的查询语句,以检索到相关的子图。2) 子图检索算法:如何高效地从3D场景图中检索相关的子图,例如使用基于图神经网络的检索方法。3) LLM提示工程:如何设计有效的LLM提示,以利用检索到的子图生成高质量的机器人计划。4) 动态更新策略:如何根据环境变化和任务执行结果动态更新3D场景图和调整查询策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EmbodiedRAG能够显著减少输入token数量(一个数量级)和规划时间(平均每个规划步骤最多减少70%),同时提高在AI2Thor模拟家庭任务中的成功率。例如,在某个具体任务中,EmbodiedRAG的成功率从基线的60%提高到80%。此外,在配备机械臂的四足机器人上的部署也验证了EmbodiedRAG在真实环境中的有效性。

🎯 应用场景

EmbodiedRAG具有广泛的应用前景,可应用于家庭服务机器人、工业机器人、物流机器人等领域。它可以帮助机器人在复杂、动态的环境中执行各种任务,例如物品拾取、导航、装配等。通过减少LLM的计算负担,EmbodiedRAG还有助于在资源受限的边缘设备上部署机器人应用,加速机器人智能化进程。

📄 摘要(原文)

Recent advances in Large Language Models (LLMs) have helped facilitate exciting progress for robotic planning in real, open-world environments. 3D scene graphs (3DSGs) offer a promising environment representation for grounding such LLM-based planners as they are compact and semantically rich. However, as the robot's environment scales (e.g., number of entities tracked) and the complexity of scene graph information increases (e.g., maintaining more attributes), providing the 3DSG as-is to an LLM-based planner quickly becomes infeasible due to input token count limits and attentional biases present in LLMs. Inspired by the successes of Retrieval-Augmented Generation (RAG) methods that retrieve query-relevant document chunks for LLM question and answering, we adapt the paradigm for our embodied domain. Specifically, we propose a 3D scene subgraph retrieval framework, called EmbodiedRAG, that we augment an LLM-based planner with for executing natural language robotic tasks. Notably, our retrieved subgraphs adapt to changes in the environment as well as changes in task-relevancy as the robot executes its plan. We demonstrate EmbodiedRAG's ability to significantly reduce input token counts (by an order of magnitude) and planning time (up to 70% reduction in average time per planning step) while improving success rates on AI2Thor simulated household tasks with a single-arm, mobile manipulator. Additionally, we implement EmbodiedRAG on a quadruped with a manipulator to highlight the performance benefits for robot deployment at the edge in real environments.