APRICOT: Active Preference Learning and Constraint-Aware Task Planning with LLMs

📄 arXiv: 2410.19656v1 📥 PDF

作者: Huaxiaoyue Wang, Nathaniel Chin, Gonzalo Gonzalez-Pumariega, Xiangwan Sun, Neha Sunkara, Maximus Adrian Pace, Jeannette Bohg, Sanjiban Choudhury

分类: cs.RO

发布日期: 2024-10-25

备注: Conference on Robot Learning (CoRL) 2024

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

APRICOT:结合LLM、主动偏好学习与约束感知规划,实现个性化家庭机器人任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 家庭机器人 主动偏好学习 约束感知规划 大型语言模型 任务规划

📋 核心要点

  1. 现有方法难以同时解决用户偏好学习中的歧义性和环境约束带来的可行性问题。
  2. APRICOT通过主动学习用户偏好并结合约束感知规划,动态适应环境限制,提升任务完成质量。
  3. 实验结果表明,APRICOT在偏好满足和规划可行性方面均优于现有方法,并在真实场景中有效。

📝 摘要(中文)

本文提出APRICOT,一种新颖的方法,旨在使家庭机器人能够在受限空间内执行个性化组织任务,同时兼顾用户偏好和环境限制。APRICOT结合了基于大型语言模型(LLM)的贝叶斯主动偏好学习与约束感知任务规划。通过主动向用户查询来优化生成的偏好,并动态调整其规划以适应环境约束。APRICOT解决了用户行为解释的模糊性以及用户偏好在几何约束下的可行性问题。在多样化的组织任务数据集和真实场景中的评估表明,APRICOT在偏好满足和规划可行性方面均有显著提升。

🔬 方法详解

问题定义:论文旨在解决家庭机器人在受限空间(如冰箱)中执行个性化物品整理任务时,如何同时满足用户偏好和环境约束的问题。现有方法在解释用户演示行为时存在歧义,且忽略了环境的几何约束,导致规划出的任务不可行或不符合用户意图。

核心思路:APRICOT的核心思路是利用大型语言模型(LLM)学习用户偏好,并通过贝叶斯主动学习策略消除偏好歧义。同时,结合约束感知的任务规划器,确保生成的任务计划在物理上可行。通过主动查询用户,APRICOT能够更准确地理解用户意图,并动态调整计划以适应环境约束。

技术框架:APRICOT的整体框架包含以下几个主要模块:1) 基于LLM的偏好学习模块:从用户演示中提取潜在的偏好;2) 贝叶斯主动学习模块:通过主动查询用户来消除偏好歧义;3) 约束感知任务规划模块:生成满足环境约束的可行任务计划;4) 任务执行模块:在真实环境中执行生成的任务计划。整个流程是迭代进行的,通过不断与用户交互和调整计划,最终实现用户满意且可行的任务完成。

关键创新:APRICOT的关键创新在于将LLM用于偏好学习,并结合贝叶斯主动学习和约束感知规划。与现有方法相比,APRICOT能够更有效地解决用户偏好学习中的歧义性问题,并确保生成的任务计划在物理上可行。主动学习策略减少了对大量用户数据的依赖,提高了学习效率。

关键设计:APRICOT使用LLM来编码用户偏好,并使用贝叶斯框架来更新偏好分布。主动学习策略选择信息量最大的查询,以最大程度地减少偏好歧义。约束感知任务规划器考虑了物体的几何形状、空间限制以及机器人运动学约束,以确保生成的任务计划可行。具体的参数设置和损失函数细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

APRICOT在组织任务数据集和真实场景中进行了评估,结果表明其在偏好满足和规划可行性方面均优于现有方法。具体性能数据和提升幅度在摘要中未给出,属于未知信息。但实验结果证实了APRICOT在实际应用中的有效性。

🎯 应用场景

APRICOT技术可应用于各种需要个性化任务规划的家庭机器人场景,例如物品整理、烹饪辅助、清洁等。该研究有助于提升家庭机器人的智能化水平,使其能够更好地理解用户意图并适应复杂环境,从而提高用户体验和生活质量。未来,该技术还可扩展到其他领域,如工业机器人、医疗机器人等。

📄 摘要(原文)

Home robots performing personalized tasks must adeptly balance user preferences with environmental affordances. We focus on organization tasks within constrained spaces, such as arranging items into a refrigerator, where preferences for placement collide with physical limitations. The robot must infer user preferences based on a small set of demonstrations, which is easier for users to provide than extensively defining all their requirements. While recent works use Large Language Models (LLMs) to learn preferences from user demonstrations, they encounter two fundamental challenges. First, there is inherent ambiguity in interpreting user actions, as multiple preferences can often explain a single observed behavior. Second, not all user preferences are practically feasible due to geometric constraints in the environment. To address these challenges, we introduce APRICOT, a novel approach that merges LLM-based Bayesian active preference learning with constraint-aware task planning. APRICOT refines its generated preferences by actively querying the user and dynamically adapts its plan to respect environmental constraints. We evaluate APRICOT on a dataset of diverse organization tasks and demonstrate its effectiveness in real-world scenarios, showing significant improvements in both preference satisfaction and plan feasibility. The project website is at https://portal-cornell.github.io/apricot/