OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks

📄 arXiv: 2508.05614v1 📥 PDF

作者: Zixuan Wang, Dingming Li, Hongxing Li, Shuo Chen, Yuchen Yan, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

分类: cs.CL, cs.AI

发布日期: 2025-08-07

备注: Project Page: https://zju-real.github.io/OmniEmbodied Code: https://github.com/ZJU-REAL/OmniEmbodied


💡 一句话要点

OmniEAR:用于评估具身智能体推理能力的综合性基准测试框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 推理能力 基准测试 语言模型 多智能体协作 物理交互 工具使用

📋 核心要点

  1. 现有具身智能基准测试通常提供预定义的工具集或明确的协作指令,限制了智能体的自主性和泛化能力。
  2. OmniEAR框架通过文本环境表示,要求智能体动态获取能力并自主确定协作策略,模拟更真实的具身推理场景。
  3. 实验表明,现有模型在处理约束推理、工具使用和隐式协作等复杂任务时性能显著下降,凸显了具身推理的挑战。

📝 摘要(中文)

大型语言模型在抽象推理方面表现出色,但其在具身智能体推理方面的能力仍未得到充分探索。我们提出了OmniEAR,这是一个综合性框架,用于评估语言模型在具身任务中对物理交互、工具使用和多智能体协作的推理能力。与提供预定义工具集或明确协作指令的现有基准不同,OmniEAR要求智能体动态地获取能力,并根据任务需求自主地确定协作策略。通过基于文本的环境表示,我们对跨越家庭和工业领域的1500个场景中的连续物理属性和复杂的空间关系进行建模。系统的评估表明,当模型必须从约束条件进行推理时,性能会严重下降:在显式指令下达到85-96%的成功率,而工具推理的性能下降到56-85%,隐式协作的性能下降到63-85%,复合任务的失败率超过50%。令人惊讶的是,完整的环境信息会降低协作性能,表明模型无法过滤与任务相关的约束。微调可以显著提高单智能体任务的性能(0.6%到76.3%),但对多智能体任务的提升很小(1.5%到5.5%),暴露了基本的架构限制。这些发现表明,具身推理提出了与当前模型所能解决的根本不同的挑战,从而确立了OmniEAR作为评估和推进具身人工智能系统的严格基准。我们的代码和数据包含在补充材料中,将在接受后开源。

🔬 方法详解

问题定义:现有具身智能体推理的benchmark通常预设了工具集和协作方式,无法有效评估智能体在复杂、动态环境下的自主学习和推理能力。痛点在于缺乏一个能够模拟真实世界复杂交互,并能有效评估智能体在物理约束、工具使用和多智能体协作等方面能力的综合性评估框架。

核心思路:OmniEAR的核心思路是构建一个基于文本描述的具身环境,允许智能体通过与环境交互来动态获取能力,并自主制定协作策略。通过文本描述,可以灵活地模拟各种物理属性和空间关系,从而构建更复杂、更真实的具身推理场景。这种设计鼓励智能体进行更高级别的推理,例如工具的使用和隐式协作。

技术框架:OmniEAR框架主要包含以下几个部分:1)基于文本的环境表示:使用文本描述来定义环境的状态、对象及其属性。2)任务生成器:自动生成包含物理交互、工具使用和多智能体协作等多种类型的具身任务。3)智能体接口:提供与环境交互的接口,允许智能体执行动作并观察环境变化。4)评估指标:设计了一系列指标来评估智能体在不同任务上的性能,包括成功率、效率和协作水平。整体流程是智能体接收任务描述和环境信息,通过与环境交互来完成任务,最后根据评估指标来评估智能体的性能。

关键创新:OmniEAR最重要的创新点在于其综合性和灵活性。它不仅涵盖了物理交互、工具使用和多智能体协作等多种具身推理能力,还允许智能体动态获取能力并自主制定协作策略。与现有benchmark相比,OmniEAR更接近真实世界的复杂场景,能够更全面地评估智能体的推理能力。

关键设计:OmniEAR的关键设计包括:1)基于文本的环境表示,允许灵活地定义环境状态和对象属性。2)任务生成器,能够自动生成各种类型的具身任务,覆盖不同的推理能力。3)评估指标,能够全面评估智能体的性能,包括成功率、效率和协作水平。此外,论文还研究了不同类型的语言模型在OmniEAR上的表现,并分析了它们的优势和不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有语言模型在OmniEAR上的性能远低于预期,尤其是在处理约束推理、工具使用和隐式协作等复杂任务时,性能显著下降。例如,在显式指令下成功率达到85-96%,而工具推理的性能下降到56-85%,隐式协作的性能下降到63-85%。微调虽然可以提高单智能体任务的性能(0.6%到76.3%),但对多智能体任务的提升很小(1.5%到5.5%)。

🎯 应用场景

OmniEAR的研究成果可应用于机器人、自动驾驶、智能家居等领域。通过评估和提升智能体在具身环境中的推理能力,可以开发出更智能、更自主的机器人系统,从而更好地服务于人类生活和生产。此外,该benchmark还可以促进具身智能领域的研究进展,推动相关技术的创新。

📄 摘要(原文)

Large language models excel at abstract reasoning but their capacity for embodied agent reasoning remains largely unexplored. We present OmniEAR, a comprehensive framework for evaluating how language models reason about physical interactions, tool usage, and multi-agent coordination in embodied tasks. Unlike existing benchmarks that provide predefined tool sets or explicit collaboration directives, OmniEAR requires agents to dynamically acquire capabilities and autonomously determine coordination strategies based on task demands. Through text-based environment representation, we model continuous physical properties and complex spatial relationships across 1,500 scenarios spanning household and industrial domains. Our systematic evaluation reveals severe performance degradation when models must reason from constraints: while achieving 85-96% success with explicit instructions, performance drops to 56-85% for tool reasoning and 63-85% for implicit collaboration, with compound tasks showing over 50% failure rates. Surprisingly, complete environmental information degrades coordination performance, indicating models cannot filter task-relevant constraints. Fine-tuning improves single-agent tasks dramatically (0.6% to 76.3%) but yields minimal multi-agent gains (1.5% to 5.5%), exposing fundamental architectural limitations. These findings demonstrate that embodied reasoning poses fundamentally different challenges than current models can address, establishing OmniEAR as a rigorous benchmark for evaluating and advancing embodied AI systems. Our code and data are included in the supplementary materials and will be open-sourced upon acceptance.