AdaptBot: Combining LLM with Knowledge Graphs and Human Input for Generic-to-Specific Task Decomposition and Knowledge Refinement

作者: Shivam Singh, Karthik Swaminathan, Nabanita Dash, Ramandeep Singh, Snehasis Banerjee, Mohan Sridharan, Madhava Krishna

分类: cs.RO, cs.AI, cs.CL, cs.LG

发布日期: 2025-02-04 (更新: 2025-03-06)

备注: Accepted to IEEE International Conference on Robotics and Automation (ICRA) 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

AdaptBot：结合LLM、知识图谱与人工反馈，实现任务分解与知识精炼

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 大型语言模型 知识图谱 人机协作 任务分解 知识精炼 机器人学习

📋 核心要点

现有具身智能体难以快速适应新任务，缺乏足够的训练数据和对任务约束的理解。
AdaptBot框架结合LLM的通用知识、知识图谱的领域知识和人工反馈，实现任务分解和知识精炼。
实验表明，在烹饪和清洁任务中，AdaptBot相比仅使用LLM，性能得到显著提升。

📝 摘要（中文）

具身智能体在辅助人类时，经常需要完成新的任务，但可能没有足够的时间或标注样本来训练智能体执行这些任务。大型语言模型（LLM）在大量领域知识上训练，可以预测完成此类任务的一系列抽象动作，但由于任务、智能体或领域特定的约束，智能体可能无法执行此序列。本文提出的框架通过利用LLM提供的通用预测和知识图谱（KG）中编码的先验领域知识来应对这些挑战，使智能体能够快速适应新任务。机器人还会根据需要征求和使用人工输入来完善其现有知识。基于在模拟领域中烹饪和清洁任务的实验评估，我们证明了LLM、KG和人工输入之间的相互作用与仅使用LLM相比，带来了显著的性能提升。

🔬 方法详解

问题定义：论文旨在解决具身智能体在面对新任务时，由于缺乏足够的训练数据和对任务、智能体、领域特定约束的理解，难以有效执行任务的问题。现有方法依赖于大量的标注数据或预定义的规则，难以适应新的、未知的任务场景。

核心思路：论文的核心思路是结合大型语言模型（LLM）的通用知识、知识图谱（KG）的领域知识以及人工反馈，实现任务的分解和知识的精炼。LLM提供任务的初步解决方案，KG提供领域约束和先验知识，人工反馈用于纠正错误和完善知识。

技术框架：AdaptBot框架包含以下主要模块：1) LLM任务规划器：利用LLM生成任务的抽象动作序列。2) 知识图谱：存储领域知识和约束。3) 任务执行器：执行LLM生成的动作序列，并与KG进行交互，检查动作是否满足约束。4) 人工反馈模块：当任务执行失败或遇到未知情况时，向人类寻求帮助，并利用人类的反馈更新KG。整体流程是：LLM生成任务计划 -> 任务执行器尝试执行 -> 遇到问题查询KG -> KG无法解决则请求人工反馈 -> 根据人工反馈更新KG -> 重新执行任务。

关键创新：该方法最重要的创新点在于将LLM的通用知识、知识图谱的领域知识和人工反馈有机结合，形成一个闭环的学习系统。与传统方法相比，该方法能够更快速地适应新任务，并且能够不断地从人工反馈中学习和完善知识。

关键设计：论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是，知识图谱的构建和维护，以及如何有效地利用人工反馈来更新知识图谱，是该方法中的关键设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在模拟的烹饪和清洁任务中，AdaptBot框架相比仅使用LLM，性能得到了显著提升。具体来说，AdaptBot能够更有效地完成任务，并且能够更快地适应新的任务场景。这些结果验证了LLM、知识图谱和人工反馈相结合的有效性。

🎯 应用场景

该研究成果可应用于各种需要具身智能体辅助人类完成任务的场景，例如家庭服务机器人、医疗辅助机器人、工业自动化机器人等。通过结合LLM、知识图谱和人工反馈，机器人能够更好地理解人类的需求，并快速适应新的任务，从而提高工作效率和用户体验。未来，该技术有望在更广泛的领域得到应用，例如智能家居、智慧医疗、智能制造等。

📄 摘要（原文）

An embodied agent assisting humans is often asked to complete new tasks, and there may not be sufficient time or labeled examples to train the agent to perform these new tasks. Large Language Models (LLMs) trained on considerable knowledge across many domains can be used to predict a sequence of abstract actions for completing such tasks, although the agent may not be able to execute this sequence due to task-, agent-, or domain-specific constraints. Our framework addresses these challenges by leveraging the generic predictions provided by LLM and the prior domain knowledge encoded in a Knowledge Graph (KG), enabling an agent to quickly adapt to new tasks. The robot also solicits and uses human input as needed to refine its existing knowledge. Based on experimental evaluation in the context of cooking and cleaning tasks in simulation domains, we demonstrate that the interplay between LLM, KG, and human input leads to substantial performance gains compared with just using the LLM. Project website§: https://sssshivvvv.github.io/adaptbot/

AdaptBot: Combining LLM with Knowledge Graphs and Human Input for Generic-to-Specific Task Decomposition and Knowledge Refinement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理