PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

作者: Matthew Chang, Gunjan Chhablani, Alexander Clegg, Mikael Dallaire Cote, Ruta Desai, Michal Hlavac, Vladimir Karashchuk, Jacob Krantz, Roozbeh Mottaghi, Priyam Parashar, Siddharth Patki, Ishita Prasad, Xavier Puig, Akshara Rai, Ram Ramrakhya, Daniel Tran, Joanne Truong, John M. Turner, Eric Undersander, Tsung-Yen Yang

分类: cs.RO, cs.AI

发布日期: 2024-10-31

备注: Alphabetical author order

💡 一句话要点

PARTNR：具身多智能体任务中规划与推理的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 人机协作 规划与推理 基准测试 大型语言模型

📋 核心要点

现有具身智能体在复杂家庭环境中人机协作方面存在不足，尤其是在规划、推理和错误恢复方面。
PARTNR基准测试利用LLM生成大规模、多样化的家庭任务，并结合仿真进行验证，以评估智能体的协作能力。
实验表明，现有LLM在人机协作任务中表现不佳，但通过微调较小的LLM可以显著提升性能，并提高推理速度。

📝 摘要（中文）

本文提出了一个名为PARTNR（人机协作中的规划与推理任务）的基准测试，旨在研究家庭活动中的人机协作。PARTNR任务模拟了日常任务的特性，例如空间、时间和异构智能体能力约束。我们采用了一种半自动化的任务生成流程，该流程使用大型语言模型（LLM），并在循环中结合仿真以进行基础和验证。PARTNR是同类基准中规模最大的一个，包含10万个自然语言任务，涵盖60个房屋和5819个独特对象。我们分析了最先进的LLM在PARTNR任务上的表现，包括规划、感知和技能执行等方面。分析表明，SoTA模型存在显著局限性，例如协调能力差以及任务跟踪和错误恢复失败。当LLM与真人配对时，他们所需的步骤是两个人协作的1.5倍，是单个人完成任务的1.1倍，这突显了这些模型的改进潜力。我们进一步表明，使用规划数据微调较小的LLM可以达到与大9倍的模型相当的性能，同时推理速度快8.6倍。总的来说，PARTNR突出了协作具身智能体面临的重大挑战，旨在推动这方面的研究。

🔬 方法详解

问题定义：论文旨在解决具身多智能体在复杂家庭环境中进行规划和推理，从而实现有效人机协作的问题。现有方法在处理空间、时间以及异构智能体能力约束方面存在不足，导致协作效率低下，难以应对任务中的突发情况和错误。

核心思路：论文的核心思路是构建一个大规模、多样化的基准测试PARTNR，用于评估和提升具身智能体的规划、推理和协作能力。通过模拟真实家庭环境和任务，并结合LLM进行任务生成和验证，可以更全面地评估智能体的性能，并为算法开发提供数据支持。

技术框架：PARTNR的整体框架包括以下几个主要模块：1) 基于LLM的任务生成器，用于生成包含自然语言描述的家庭任务；2) 仿真环境，用于模拟真实家庭场景和智能体的交互；3) 任务验证模块，用于评估生成任务的可行性和合理性；4) 评估指标，用于衡量智能体在规划、推理和协作方面的性能。整个流程采用循环迭代的方式，不断优化任务生成和验证过程。

关键创新：PARTNR的关键创新在于其半自动化的任务生成流程，该流程利用LLM生成多样化的任务，并结合仿真进行验证，从而避免了人工标注的成本和偏差。此外，PARTNR还考虑了空间、时间和异构智能体能力约束，更贴近真实的人机协作场景。

关键设计：在任务生成方面，论文使用了预训练的LLM，并对其进行了微调，以生成更符合家庭场景的任务描述。在仿真环境方面，论文使用了Habitat平台，并构建了60个不同的房屋模型，以及5819个独特的对象。在评估指标方面，论文考虑了任务完成率、步骤数、协作效率等多个指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM在PARTNR任务上的表现不佳，与真人协作时效率较低。然而，通过使用规划数据微调较小的LLM，可以达到与大9倍的模型相当的性能，同时推理速度快8.6倍。这表明，通过有效的训练方法，可以显著提升具身智能体的性能，并降低计算成本。

🎯 应用场景

该研究成果可应用于智能家居、辅助机器人、人机协作等领域。通过提升具身智能体的规划、推理和协作能力，可以实现更智能、更高效的家庭服务机器人，从而提高人们的生活质量。未来，该研究还可以扩展到其他复杂环境，如工厂、医院等。

📄 摘要（原文）

We present a benchmark for Planning And Reasoning Tasks in humaN-Robot collaboration (PARTNR) designed to study human-robot coordination in household activities. PARTNR tasks exhibit characteristics of everyday tasks, such as spatial, temporal, and heterogeneous agent capability constraints. We employ a semi-automated task generation pipeline using Large Language Models (LLMs), incorporating simulation in the loop for grounding and verification. PARTNR stands as the largest benchmark of its kind, comprising 100,000 natural language tasks, spanning 60 houses and 5,819 unique objects. We analyze state-of-the-art LLMs on PARTNR tasks, across the axes of planning, perception and skill execution. The analysis reveals significant limitations in SoTA models, such as poor coordination and failures in task tracking and recovery from errors. When LLMs are paired with real humans, they require 1.5x as many steps as two humans collaborating and 1.1x more steps than a single human, underscoring the potential for improvement in these models. We further show that fine-tuning smaller LLMs with planning data can achieve performance on par with models 9 times larger, while being 8.6x faster at inference. Overall, PARTNR highlights significant challenges facing collaborative embodied agents and aims to drive research in this direction.

PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理