ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models

📄 arXiv: 2410.14682v2 📥 PDF

作者: Lingfeng Zhang, Yuening Wang, Hongjian Gu, Atia Hamidizadeh, Zhanguang Zhang, Yuecheng Liu, Yutong Wang, David Gamaliel Arcos Bravo, Junyi Dong, Shunbo Zhou, Tongtong Cao, Xingyue Quan, Yuzheng Zhuang, Yingxue Zhang, Jianye Hao

分类: cs.RO, cs.AI

发布日期: 2024-10-02 (更新: 2025-02-13)


💡 一句话要点

ET-Plan-Bench:一个用于具身任务规划,评估大模型时空认知能力的基准测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身任务规划 大型语言模型 时空认知 基准测试 环境交互

📋 核心要点

  1. 现有方法在具身任务规划中,尤其是在需要理解复杂空间、时间和因果关系的任务中,面临着挑战。
  2. ET-Plan-Bench通过提供一个多样化的具身任务集,并结合多源模拟器,实现LLM与环境的动态交互和重新规划。
  3. 实验结果表明,现有大模型在ET-Plan-Bench的复杂任务上性能显著下降,突显了该基准测试的挑战性。

📝 摘要(中文)

本文提出了一个新的具身任务规划基准测试ET-Plan-Bench,旨在利用大型语言模型(LLMs)探索具身任务规划。该基准测试包含一系列可控且多样的具身任务,任务难度和复杂度各不相同,用于评估LLMs在具身任务理解中的两个关键维度:空间理解(关系约束、目标对象的遮挡)以及动作序列的时间和因果理解。通过使用多源模拟器作为后端,ET-Plan-Bench能够为LLMs提供即时的环境反馈,使LLMs能够与环境动态交互并根据需要重新规划。在提出的基准测试上,评估了最先进的开源和闭源基础模型,包括GPT-4、LLAMA和Mistral。结果表明,虽然它们在简单的导航任务上表现良好,但在需要更深入理解空间、时间和因果关系的任务中,性能会显著下降。因此,该基准测试作为一个大规模、可量化、高度自动化和精细化的诊断框架,对最新的基础模型提出了重大挑战。希望它可以激发和推动使用基础模型进行具身任务规划的进一步研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在具身任务规划中,尤其是处理涉及复杂空间关系(如目标遮挡)和时间因果关系的任务时,理解能力不足的问题。现有方法难以有效评估和诊断LLM在这些方面的能力,缺乏一个全面、可控的测试平台。

核心思路:论文的核心思路是构建一个专门的基准测试,该基准测试包含一系列精心设计的具身任务,这些任务在空间和时间维度上具有不同的难度和复杂度。通过让LLM在这些任务中进行规划和执行,并结合环境反馈,可以更全面地评估LLM在具身环境中的理解和推理能力。

技术框架:ET-Plan-Bench的整体框架包括:1) 任务定义模块,用于生成具有不同空间和时间约束的具身任务;2) 多源模拟器后端,提供环境交互和反馈;3) LLM接口,允许LLM接收任务描述并输出行动计划;4) 评估模块,用于量化LLM的规划性能。LLM可以根据环境反馈动态地重新规划。

关键创新:该基准测试的关键创新在于其任务的多样性和可控性,以及对空间和时间因果关系的细粒度评估。与现有基准测试相比,ET-Plan-Bench更侧重于诊断LLM在具身环境中的认知能力,而不仅仅是简单的任务完成率。

关键设计:任务设计考虑了不同层次的空间关系(例如,目标之间的相对位置、遮挡关系)和时间因果关系(例如,执行动作的先后顺序、动作对环境的影响)。模拟器后端支持多种环境,并提供实时的状态更新和反馈。评估指标包括任务完成率、规划效率和空间/时间推理的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ET-Plan-Bench上,GPT-4等模型在简单导航任务上表现尚可,但在涉及复杂空间和时间推理的任务中,性能显著下降。例如,在需要考虑目标遮挡的任务中,任务完成率降低了20%-30%。这表明现有大模型在具身环境中的认知能力仍有很大的提升空间,ET-Plan-Bench能够有效区分不同模型在这些方面的差异。

🎯 应用场景

ET-Plan-Bench可用于评估和改进大型语言模型在机器人、自动驾驶、智能家居等领域的应用。通过该基准测试,可以更好地理解LLM在具身环境中的认知能力,并开发出更智能、更可靠的具身智能系统。该基准测试也有助于推动LLM在复杂任务规划和决策方面的研究。

📄 摘要(原文)

Recent advancements in Large Language Models (LLMs) have spurred numerous attempts to apply these technologies to embodied tasks, particularly focusing on high-level task planning and task decomposition. To further explore this area, we introduce a new embodied task planning benchmark, ET-Plan-Bench, which specifically targets embodied task planning using LLMs. It features a controllable and diverse set of embodied tasks varying in different levels of difficulties and complexities, and is designed to evaluate two critical dimensions of LLMs' application in embodied task understanding: spatial (relation constraint, occlusion for target objects) and temporal & causal understanding of the sequence of actions in the environment. By using multi-source simulators as the backend simulator, it can provide immediate environment feedback to LLMs, which enables LLMs to interact dynamically with the environment and re-plan as necessary. We evaluated the state-of-the-art open source and closed source foundation models, including GPT-4, LLAMA and Mistral on our proposed benchmark. While they perform adequately well on simple navigation tasks, their performance can significantly deteriorate when faced with tasks that require a deeper understanding of spatial, temporal, and causal relationships. Thus, our benchmark distinguishes itself as a large-scale, quantifiable, highly automated, and fine-grained diagnostic framework that presents a significant challenge to the latest foundation models. We hope it can spark and drive further research in embodied task planning using foundation models.