Cooking Task Planning using LLM and Verified by Graph Network

📄 arXiv: 2503.21564v1 📥 PDF

作者: Ryunosuke Takebayashi, Vitor Hideyo Isume, Takuya Kiyokawa, Weiwei Wan, Kensuke Harada

分类: cs.RO

发布日期: 2025-03-27


💡 一句话要点

结合LLM与图网络的烹饪任务规划方法,提升机器人操作成功率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 烹饪任务规划 大型语言模型 功能对象导向网络 任务和运动规划 机器人操作

📋 核心要点

  1. 烹饪任务复杂性高,现有方法难以有效利用烹饪视频数据生成可靠的机器人操作方案。
  2. 提出结合LLM和功能对象导向网络(FOON)的TAMP框架,利用FOON验证LLM生成的计划并提供反馈。
  3. 实验表明,该方法显著提升了双臂机器人执行烹饪任务计划的成功率,优于纯LLM方法。

📝 摘要(中文)

烹饪任务因其复杂性对机器人来说仍然是一个挑战。人们烹饪的视频是此类任务的宝贵信息来源,但如何将这些数据转化为机器人环境存在很大的变数。本研究旨在简化这一过程,重点关注任务规划生成步骤,通过使用基于大型语言模型(LLM)的任务和运动规划(TAMP)框架,从带有字幕的视频中自主生成烹饪任务计划并执行它们。传统的基于LLM的任务规划方法由于视频中的不确定性和输出中幻觉的风险,不太适合解释烹饪视频数据。为了解决这两个问题,我们探索将LLM与功能对象导向网络(FOON)结合使用,以验证计划并在失败时提供反馈。这种组合可以生成逻辑上正确且可由机器人执行的带有操作动作的任务序列。我们将我们的方法生成的5个烹饪食谱的计划执行情况与仅使用少量样本的LLM方法生成的双臂机器人设置的计划进行了比较。我们的方法成功执行了4个生成的计划,而仅使用LLM生成的计划只能执行1个。

🔬 方法详解

问题定义:论文旨在解决如何从烹饪视频中提取信息,并生成可供机器人执行的烹饪任务规划。现有方法,特别是纯粹依赖LLM的方法,在处理烹饪视频数据时存在不确定性和幻觉问题,导致生成的任务规划逻辑错误或无法执行。

核心思路:论文的核心思路是将LLM与功能对象导向网络(FOON)相结合。LLM负责生成初步的任务规划,而FOON则用于验证该规划的合理性和可行性,并在出现错误时提供反馈。这种结合利用了LLM的生成能力和FOON的验证能力,从而提高了任务规划的可靠性。

技术框架:整体框架包含以下几个主要阶段:1) 输入烹饪视频和字幕;2) 使用LLM生成初步的任务规划;3) 使用FOON验证任务规划的逻辑性和可行性;4) 如果验证失败,FOON提供反馈给LLM,LLM根据反馈调整任务规划;5) 重复步骤3和4,直到任务规划通过验证;6) 将最终的任务规划传递给机器人执行。

关键创新:最重要的技术创新点在于将LLM和FOON结合起来,形成一个闭环的反馈系统。这种结合克服了LLM在处理不确定性数据时的局限性,并提高了任务规划的可靠性和鲁棒性。与现有方法相比,该方法能够更好地处理烹饪视频中的复杂性和不确定性。

关键设计:论文中FOON的具体实现细节未知。但是,可以推断FOON需要对烹饪任务中的对象、动作和它们之间的关系进行建模,并能够根据这些模型来验证任务规划的合理性。例如,FOON需要知道“切菜”这个动作需要用到刀和蔬菜,并且刀必须在蔬菜上方才能进行切割。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在5个烹饪食谱中成功执行了4个生成的计划,而仅使用LLM的方法只能成功执行1个。这表明该方法显著提高了机器人执行烹饪任务计划的成功率。具体的性能提升数据未知,但实验结果清晰地表明了该方法的优越性。

🎯 应用场景

该研究成果可应用于智能厨房、自动化餐饮服务、以及辅助残疾人进行烹饪等领域。通过将烹饪视频转化为机器人可执行的任务规划,可以实现烹饪过程的自动化,提高效率,并降低人力成本。未来,该技术有望扩展到其他复杂的操作任务中,例如组装、维修等。

📄 摘要(原文)

Cooking tasks remain a challenging problem for robotics due to their complexity. Videos of people cooking are a valuable source of information for such task, but introduces a lot of variability in terms of how to translate this data to a robotic environment. This research aims to streamline this process, focusing on the task plan generation step, by using a Large Language Model (LLM)-based Task and Motion Planning (TAMP) framework to autonomously generate cooking task plans from videos with subtitles, and execute them. Conventional LLM-based task planning methods are not well-suited for interpreting the cooking video data due to uncertainty in the videos, and the risk of hallucination in its output. To address both of these problems, we explore using LLMs in combination with Functional Object-Oriented Networks (FOON), to validate the plan and provide feedback in case of failure. This combination can generate task sequences with manipulation motions that are logically correct and executable by a robot. We compare the execution of the generated plans for 5 cooking recipes from our approach against the plans generated by a few-shot LLM-only approach for a dual-arm robot setup. It could successfully execute 4 of the plans generated by our approach, whereas only 1 of the plans generated by solely using the LLM could be executed.