CLMASP: Coupling Large Language Models with Answer Set Programming for Robotic Task Planning

📄 arXiv: 2406.03367v1 📥 PDF

作者: Xinrui Lin, Yangfan Wu, Huanyu Yang, Yu Zhang, Yanyong Zhang, Jianmin Ji

分类: cs.AI

发布日期: 2024-06-05


💡 一句话要点

CLMASP:耦合LLM与ASP实现机器人任务规划,显著提升可执行率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 大型语言模型 答案集编程 人机协作 知识推理

📋 核心要点

  1. 现有方法难以将LLM生成的通用计划有效地应用于具有约束的特定机器人,导致计划可执行率低。
  2. CLMASP耦合LLM与ASP,利用LLM生成骨架计划,ASP融入机器人动作知识进行细化,提高计划可执行性。
  3. 实验表明,CLMASP在VirtualHome平台上的可执行率超过90%,显著优于LLM基线的低于2%。

📝 摘要(中文)

本文提出了一种名为CLMASP的方法,该方法将大型语言模型(LLM)与答案集编程(ASP)相结合,以解决机器人任务规划问题。LLM具有广泛的基础知识和一定的推理能力,适用于开放世界场景中的通用任务规划。然而,将LLM生成的计划应用于具有特定约束的机器人并使其可执行是一项挑战。CLMASP首先利用LLM生成一个基本的骨架计划,然后使用向量数据库根据具体场景进行调整。随后,通过一个包含机器人动作知识的ASP程序对该计划进行细化,将实现细节集成到骨架中,从而将LLM的抽象输出转化为实际的机器人上下文。在VirtualHome平台上进行的实验表明,CLMASP的有效性显著提高。与LLM方法低于2%的基线可执行率相比,CLMASP将其提高到90%以上。

🔬 方法详解

问题定义:论文旨在解决如何将大型语言模型(LLM)生成的抽象任务计划,有效地转化为机器人能够执行的具体动作序列的问题。现有方法,特别是直接使用LLM进行任务规划,难以保证生成的计划符合机器人的物理约束和环境限制,导致计划的可执行率非常低。LLM缺乏对机器人具体动作知识的精确建模,无法将高层次的规划目标转化为低层次的执行指令。

核心思路:CLMASP的核心思路是将LLM的通用规划能力与ASP的精确推理能力相结合。LLM负责生成任务的骨架计划,提供高层次的指导;ASP则负责将骨架计划细化为具体的机器人动作序列,确保计划的可执行性和符合约束。通过这种耦合,可以充分利用LLM的知识和推理能力,同时避免其在机器人动作规划方面的不足。

技术框架:CLMASP的整体框架包含以下几个主要阶段:1) LLM生成骨架计划:利用LLM生成任务的高层次步骤。2) 场景适配:使用向量数据库检索与当前场景相关的知识,对骨架计划进行调整。3) ASP细化:使用包含机器人动作知识的ASP程序,将骨架计划细化为具体的机器人动作序列。ASP程序会考虑机器人的物理约束、环境限制以及动作之间的依赖关系,确保计划的可执行性。

关键创新:CLMASP的关键创新在于将LLM与ASP进行耦合,实现了一种混合的任务规划方法。这种方法既利用了LLM的通用知识和推理能力,又利用了ASP的精确推理和约束求解能力。与传统的基于规则或基于优化的机器人任务规划方法相比,CLMASP具有更强的灵活性和适应性,能够处理更复杂的任务和环境。

关键设计:在CLMASP中,LLM的选择和提示工程至关重要,需要选择具有较强推理能力的LLM,并设计合适的提示语,引导LLM生成合理的骨架计划。向量数据库用于存储场景相关的知识,需要选择合适的向量化方法和相似度度量方法,确保能够检索到相关的知识。ASP程序的编写需要仔细考虑机器人的动作知识和约束条件,确保能够生成可执行的动作序列。具体的参数设置和损失函数信息未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,CLMASP在VirtualHome平台上的可执行率超过90%,相比于直接使用LLM的基线方法(可执行率低于2%)有了显著提升。这表明CLMASP能够有效地将LLM生成的抽象计划转化为机器人可执行的具体动作序列,验证了该方法的有效性。

🎯 应用场景

CLMASP具有广泛的应用前景,可应用于家庭服务机器人、工业机器人、医疗机器人等领域。它可以帮助机器人更好地理解人类指令,自主规划任务,并在复杂环境中安全有效地执行任务。该研究的成果有助于提高机器人的智能化水平,促进人机协作。

📄 摘要(原文)

Large Language Models (LLMs) possess extensive foundational knowledge and moderate reasoning abilities, making them suitable for general task planning in open-world scenarios. However, it is challenging to ground a LLM-generated plan to be executable for the specified robot with certain restrictions. This paper introduces CLMASP, an approach that couples LLMs with Answer Set Programming (ASP) to overcome the limitations, where ASP is a non-monotonic logic programming formalism renowned for its capacity to represent and reason about a robot's action knowledge. CLMASP initiates with a LLM generating a basic skeleton plan, which is subsequently tailored to the specific scenario using a vector database. This plan is then refined by an ASP program with a robot's action knowledge, which integrates implementation details into the skeleton, grounding the LLM's abstract outputs in practical robot contexts. Our experiments conducted on the VirtualHome platform demonstrate CLMASP's efficacy. Compared to the baseline executable rate of under 2% with LLM approaches, CLMASP significantly improves this to over 90%.