Integrated Exploration and Sequential Manipulation on Scene Graph with LLM-based Situated Replanning
作者: Heqing Yang, Ziyuan Jiao, Shu Wang, Yida Niu, Si Liu, Hangxin Liu
分类: cs.RO
发布日期: 2026-02-04
备注: 8 pages, 7 figures; accepted by ICRA 2026
💡 一句话要点
EPoG:基于LLM情境重规划的场景图探索与序列操作集成框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人 场景图 大型语言模型 探索规划 序列操作
📋 核心要点
- 现有方法难以兼顾信息收集和任务执行,在部分已知环境中,机器人需要同时探索未知区域和规划操作序列。
- EPoG框架通过整合全局图规划和LLM局部规划,利用观测和LLM预测更新置信图,实现探索与操作的无缝结合。
- 实验表明,EPoG在真实场景中表现出色,成功率高达91.3%,并显著减少了机器人的行进距离。
📝 摘要(中文)
本文提出了一种名为EPoG的框架,用于在部分已知环境中进行基于探索的场景图序列操作规划。EPoG集成了基于图的全局规划器和基于大型语言模型(LLM)的情境局部规划器,通过观测和LLM预测持续更新置信图,以表示已知和未知对象。通过计算目标图和置信图之间的图编辑操作来生成动作序列,并按照时间依赖性和移动成本进行排序。这种方法无缝地结合了探索和序列操作规划。在46个真实的家庭场景和5个长时程日常物品运输任务的消融研究中,EPoG的成功率达到了91.3%,平均减少了36.1%的行进距离。此外,一个物理移动机械臂成功地在未知和动态环境中执行了复杂的任务,证明了EPoG在现实世界应用中的潜力。
🔬 方法详解
问题定义:在部分已知的环境中,机器人需要同时进行探索以获取更多信息,并进行任务规划以高效地执行任务。现有的方法通常难以有效地结合探索和规划,导致效率低下或任务失败。例如,一些方法可能过于依赖预先设定的环境地图,无法适应未知或动态变化的环境;另一些方法可能只关注局部规划,而忽略了全局的优化。
核心思路:EPoG的核心思路是将探索和序列操作规划集成到一个统一的框架中。它利用场景图来表示环境信息,并使用LLM来预测未知对象的信息。通过不断更新场景图,机器人可以逐步了解环境,并根据当前的环境信息进行任务规划。这种方法允许机器人在探索过程中动态地调整规划,从而提高任务的成功率和效率。
技术框架:EPoG框架主要包含以下几个模块:1) 置信图构建:利用传感器数据和LLM预测构建场景的置信图,节点表示对象,边表示对象之间的关系。2) 全局规划器:基于置信图进行全局路径规划,指导机器人进行探索。3) 局部规划器:利用LLM进行情境推理,生成局部操作序列。4) 图编辑操作:通过计算目标图和置信图之间的差异,生成需要执行的动作序列。5) 执行与更新:机器人执行动作序列,并根据观测结果更新置信图。
关键创新:EPoG的关键创新在于将LLM集成到机器人规划框架中,利用LLM的知识推理能力来预测未知对象的信息,从而提高机器人在部分已知环境中的规划能力。此外,EPoG还提出了一种基于图编辑操作的动作序列生成方法,可以有效地处理复杂的序列操作任务。
关键设计:EPoG使用预训练的LLM(具体模型未知)进行情境推理,并根据LLM的输出更新置信图。图编辑操作包括添加节点、删除节点、添加边和删除边。动作序列的排序基于时间依赖性和移动成本,以确保任务的顺利执行。具体的损失函数和网络结构等技术细节在论文中可能有所描述,但摘要中未提及,因此未知。
🖼️ 关键图片
📊 实验亮点
EPoG在46个真实的家庭场景和5个长时程日常物品运输任务中进行了评估,取得了显著的成果。实验结果表明,EPoG的成功率达到了91.3%,并且平均减少了36.1%的行进距离。此外,EPoG还在一个物理移动机械臂上进行了验证,成功地执行了复杂的任务,证明了其在现实世界应用中的可行性。
🎯 应用场景
EPoG框架具有广泛的应用前景,例如家庭服务机器人、仓库自动化、医疗辅助机器人等。它可以帮助机器人在复杂、动态的环境中完成各种任务,例如物品搬运、清洁、照护等。通过不断学习和适应环境,EPoG可以提高机器人的自主性和智能化水平,从而更好地服务于人类。
📄 摘要(原文)
In partially known environments, robots must combine exploration to gather information with task planning for efficient execution. To address this challenge, we propose EPoG, an Exploration-based sequential manipulation Planning framework on Scene Graphs. EPoG integrates a graph-based global planner with a Large Language Model (LLM)-based situated local planner, continuously updating a belief graph using observations and LLM predictions to represent known and unknown objects. Action sequences are generated by computing graph edit operations between the goal and belief graphs, ordered by temporal dependencies and movement costs. This approach seamlessly combines exploration and sequential manipulation planning. In ablation studies across 46 realistic household scenes and 5 long-horizon daily object transportation tasks, EPoG achieved a success rate of 91.3%, reducing travel distance by 36.1% on average. Furthermore, a physical mobile manipulator successfully executed complex tasks in unknown and dynamic environments, demonstrating EPoG's potential for real-world applications.