EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
作者: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
分类: cs.CV, cs.CL
发布日期: 2025-01-21 (更新: 2025-04-11)
🔗 代码/项目: GITHUB
💡 一句话要点
EmbodiedEval:提出一个综合性的交互式基准,用于评估多模态LLM在具身智能任务中的表现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大型语言模型 具身智能 评估基准 交互式评估 3D场景
📋 核心要点
- 现有MLLM评估基准缺乏交互性,且具身AI基准任务单一,无法全面评估MLLM的具身智能能力。
- EmbodiedEval构建了一个多样化的交互式评估基准,包含多种具身任务,以更全面地评估MLLM的具身能力。
- 实验结果表明,现有MLLM在EmbodiedEval上的表现与人类水平存在显著差距,揭示了其在具身能力上的局限性。
📝 摘要(中文)
多模态大型语言模型(MLLM)展现出显著的进步,为具身智能体提供了充满希望的未来。现有的MLLM评估基准主要使用静态图像或视频,将评估限制在非交互式场景中。同时,现有的具身AI基准是特定于任务的,并且不够多样化,无法充分评估MLLM的具身能力。为了解决这个问题,我们提出了EmbodiedEval,这是一个综合性的交互式评估基准,用于评估MLLM在具身任务中的表现。EmbodiedEval包含125个不同的3D场景中的328个不同的任务,每个任务都经过严格的选择和注释。它涵盖了广泛的现有具身AI任务,并显著增强了多样性,所有这些都在为MLLM量身定制的统一模拟和评估框架内。这些任务分为五类:导航、物体交互、社交互动、属性问答和空间问答,以评估智能体的不同能力。我们在EmbodiedEval上评估了最先进的MLLM,发现它们在具身任务方面与人类水平相比存在显著差距。我们的分析表明了现有MLLM在具身能力方面的局限性,为它们的未来发展提供了见解。我们开源了所有评估数据和模拟框架。
🔬 方法详解
问题定义:现有评估多模态大型语言模型(MLLM)在具身智能体应用中的方法存在局限性。静态图像或视频的评估方式缺乏交互性,无法真实反映智能体在动态环境中的表现。同时,现有的具身AI基准往往是针对特定任务设计的,缺乏多样性,难以全面评估MLLM的具身能力。这导致我们难以准确了解MLLM在实际具身任务中的潜力和不足。
核心思路:EmbodiedEval的核心思路是构建一个综合性的、交互式的评估基准,包含多样化的具身任务,从而更全面、更真实地评估MLLM的具身能力。通过模拟真实世界的交互场景,并设计不同类型的任务,可以考察MLLM在导航、物体交互、社交互动、问答等方面的能力。
技术框架:EmbodiedEval的技术框架主要包括以下几个部分:1) 3D场景库:包含125个不同的3D场景,提供多样化的环境;2) 任务定义:定义了328个不同的具身任务,涵盖导航、物体交互、社交互动、属性问答和空间问答五大类;3) 模拟环境:提供统一的模拟环境,用于执行和评估任务;4) 评估指标:定义了用于评估MLLM性能的指标。整个框架旨在提供一个标准化、可重复的评估平台。
关键创新:EmbodiedEval的关键创新在于其综合性和多样性。与现有的评估基准相比,EmbodiedEval包含更广泛的具身任务类型和更丰富的3D场景,能够更全面地评估MLLM的具身能力。此外,EmbodiedEval提供了一个统一的模拟和评估框架,方便研究人员进行实验和比较。
关键设计:EmbodiedEval的关键设计包括:1) 任务选择:任务的选择基于对现有具身AI任务的分析,并考虑了MLLM的特点;2) 场景设计:场景的设计旨在提供多样化的环境,包括室内和室外场景,以及不同类型的物体和人物;3) 评估指标:评估指标的选择旨在反映MLLM在不同任务上的性能,包括成功率、导航距离、交互次数等。
🖼️ 关键图片
📊 实验亮点
在EmbodiedEval上对最先进的MLLM进行了评估,结果表明它们在具身任务方面的表现与人类水平相比存在显著差距。例如,在导航任务中,MLLM的成功率远低于人类。这些结果揭示了现有MLLM在具身能力方面的局限性,为未来的研究方向提供了重要的参考。
🎯 应用场景
EmbodiedEval可用于评估和改进多模态大型语言模型在具身智能体应用中的性能,例如机器人导航、家庭助手、虚拟现实游戏等。通过使用EmbodiedEval,研究人员可以更好地了解MLLM的优势和局限性,并开发更有效的具身智能体。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.