EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

作者: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun

分类: cs.CV, cs.CL

发布日期: 2025-01-21 (更新: 2025-04-11)

🔗 代码/项目: GITHUB

💡 一句话要点

EmbodiedEval：提出一个综合性的交互式基准，用于评估多模态LLM在具身智能任务中的表现。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 具身智能 评估基准 交互式评估 3D场景

📋 核心要点

现有MLLM评估基准缺乏交互性，且具身AI基准任务单一，无法全面评估MLLM的具身智能能力。
EmbodiedEval构建了一个多样化的交互式评估基准，包含多种具身任务，以更全面地评估MLLM的具身能力。
实验结果表明，现有MLLM在EmbodiedEval上的表现与人类水平存在显著差距，揭示了其在具身能力上的局限性。

📝 摘要（中文）

多模态大型语言模型（MLLM）展现出显著的进步，为具身智能体提供了充满希望的未来。现有的MLLM评估基准主要使用静态图像或视频，将评估限制在非交互式场景中。同时，现有的具身AI基准是特定于任务的，并且不够多样化，无法充分评估MLLM的具身能力。为了解决这个问题，我们提出了EmbodiedEval，这是一个综合性的交互式评估基准，用于评估MLLM在具身任务中的表现。EmbodiedEval包含125个不同的3D场景中的328个不同的任务，每个任务都经过严格的选择和注释。它涵盖了广泛的现有具身AI任务，并显著增强了多样性，所有这些都在为MLLM量身定制的统一模拟和评估框架内。这些任务分为五类：导航、物体交互、社交互动、属性问答和空间问答，以评估智能体的不同能力。我们在EmbodiedEval上评估了最先进的MLLM，发现它们在具身任务方面与人类水平相比存在显著差距。我们的分析表明了现有MLLM在具身能力方面的局限性，为它们的未来发展提供了见解。我们开源了所有评估数据和模拟框架。

🔬 方法详解

问题定义：现有评估多模态大型语言模型（MLLM）在具身智能体应用中的方法存在局限性。静态图像或视频的评估方式缺乏交互性，无法真实反映智能体在动态环境中的表现。同时，现有的具身AI基准往往是针对特定任务设计的，缺乏多样性，难以全面评估MLLM的具身能力。这导致我们难以准确了解MLLM在实际具身任务中的潜力和不足。

核心思路：EmbodiedEval的核心思路是构建一个综合性的、交互式的评估基准，包含多样化的具身任务，从而更全面、更真实地评估MLLM的具身能力。通过模拟真实世界的交互场景，并设计不同类型的任务，可以考察MLLM在导航、物体交互、社交互动、问答等方面的能力。

技术框架：EmbodiedEval的技术框架主要包括以下几个部分：1) 3D场景库：包含125个不同的3D场景，提供多样化的环境；2) 任务定义：定义了328个不同的具身任务，涵盖导航、物体交互、社交互动、属性问答和空间问答五大类；3) 模拟环境：提供统一的模拟环境，用于执行和评估任务；4) 评估指标：定义了用于评估MLLM性能的指标。整个框架旨在提供一个标准化、可重复的评估平台。

关键创新：EmbodiedEval的关键创新在于其综合性和多样性。与现有的评估基准相比，EmbodiedEval包含更广泛的具身任务类型和更丰富的3D场景，能够更全面地评估MLLM的具身能力。此外，EmbodiedEval提供了一个统一的模拟和评估框架，方便研究人员进行实验和比较。

关键设计：EmbodiedEval的关键设计包括：1) 任务选择：任务的选择基于对现有具身AI任务的分析，并考虑了MLLM的特点；2) 场景设计：场景的设计旨在提供多样化的环境，包括室内和室外场景，以及不同类型的物体和人物；3) 评估指标：评估指标的选择旨在反映MLLM在不同任务上的性能，包括成功率、导航距离、交互次数等。

🖼️ 关键图片

📊 实验亮点

在EmbodiedEval上对最先进的MLLM进行了评估，结果表明它们在具身任务方面的表现与人类水平相比存在显著差距。例如，在导航任务中，MLLM的成功率远低于人类。这些结果揭示了现有MLLM在具身能力方面的局限性，为未来的研究方向提供了重要的参考。

🎯 应用场景

EmbodiedEval可用于评估和改进多模态大型语言模型在具身智能体应用中的性能，例如机器人导航、家庭助手、虚拟现实游戏等。通过使用EmbodiedEval，研究人员可以更好地了解MLLM的优势和局限性，并开发更有效的具身智能体。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.

EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理