BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

📄 arXiv: 2510.08759v1 📥 PDF

作者: Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin, Yijian Huang, Kai Cheng, Peiheng Wang, Jiazheng Liu, Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L. S. Wong

分类: cs.CV, cs.RO

发布日期: 2025-10-09


💡 一句话要点

BEAR:原子具身能力的多模态语言模型基准测试与增强

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 多模态大语言模型 基准测试 原子能力 视觉模型 3D理解 规划

📋 核心要点

  1. 现有具身智能基准测试主要关注特定领域,缺乏对多模态大语言模型原子具身能力的全面系统评估。
  2. 提出BEAR基准测试和BEAR-Agent,通过集成预训练视觉模型来增强MLLM的感知、3D理解和规划能力。
  3. 实验表明,BEAR-Agent在BEAR基准测试上显著提升了MLLM的具身能力,并在模拟环境中取得了更好的表现。

📝 摘要(中文)

本文提出了BEAR,一个全面的、细粒度的基准测试,用于评估多模态大型语言模型(MLLM)在原子具身能力方面的表现。BEAR包含4469个交错的图像-视频-文本条目,涵盖6个类别中的14个领域,包括从低级指向、轨迹理解、空间推理到高级规划等任务。对20个代表性MLLM的广泛评估结果表明,它们在具身能力的各个领域都存在持续的局限性。为了解决这一不足,本文提出了BEAR-Agent,一个多模态可对话Agent,它集成了预训练的视觉模型,以加强MLLM的感知、3D理解和规划能力。BEAR-Agent在BEAR上显著提高了MLLM在各种具身能力上的性能,获得了9.12%的绝对增益,相对于GPT-5的相对改进为17.5%。实验表明,提高MLLM的具身能力可以促进模拟环境中的具身任务。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在具身智能领域展现出潜力,但缺乏对其原子级别具身能力的系统性评估。现有基准测试往往侧重于特定领域,如规划或空间理解,无法全面反映MLLM在感知、理解和与物理世界交互方面的能力。因此,需要一个更细粒度、更全面的基准测试来识别MLLM在具身能力方面的不足。

核心思路:本文的核心思路是构建一个名为BEAR的基准测试,该基准测试涵盖了原子级别的具身能力,并设计了一个名为BEAR-Agent的Agent,通过集成预训练的视觉模型来增强MLLM的感知、3D理解和规划能力。通过这种方式,可以更准确地评估MLLM的具身能力,并探索提升这些能力的有效方法。

技术框架:BEAR基准测试包含4469个交错的图像-视频-文本条目,涵盖6个类别中的14个领域,包括低级指向、轨迹理解、空间推理和高级规划等任务。BEAR-Agent则是一个多模态可对话Agent,它集成了预训练的视觉模型,以增强MLLM的感知、3D理解和规划能力。具体来说,BEAR-Agent可能包含视觉编码器、3D场景理解模块和规划模块,这些模块与MLLM进行交互,共同完成具身任务。

关键创新:该论文的关键创新在于提出了一个全面的、细粒度的基准测试BEAR,用于评估MLLM在原子具身能力方面的表现。此外,BEAR-Agent通过集成预训练的视觉模型来增强MLLM的感知、3D理解和规划能力,这是一种有效的提升MLLM具身能力的方法。与现有方法相比,BEAR更加全面和细粒度,BEAR-Agent则通过集成外部知识来增强MLLM的能力。

关键设计:关于BEAR-Agent的具体设计细节,论文中可能包含以下关键设计:如何选择和集成预训练的视觉模型?如何设计3D场景理解模块和规划模块?如何将这些模块与MLLM进行有效集成?损失函数的设计可能包括用于训练视觉编码器、3D场景理解模块和规划模块的损失函数,以及用于训练MLLM的损失函数。网络结构可能包括视觉编码器的网络结构、3D场景理解模块的网络结构和规划模块的网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BEAR-Agent在BEAR基准测试上显著提高了MLLM在各种具身能力上的性能,获得了9.12%的绝对增益,相对于GPT-5的相对改进为17.5%。这表明,通过集成预训练的视觉模型,可以有效提升MLLM的具身能力。此外,实验还表明,提高MLLM的具身能力可以促进模拟环境中的具身任务。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、自动驾驶等领域。通过提升MLLM的具身能力,可以使Agent更好地理解和与物理世界交互,从而实现更智能、更自主的机器人系统。未来,该研究可以推动具身智能技术的发展,并为构建更智能的机器人提供理论和技术支持。

📄 摘要(原文)

Embodied capabilities refer to a suite of fundamental abilities for an agent to perceive, comprehend, and interact with the physical world. While multimodal large language models (MLLMs) show promise as embodied agents, a thorough and systematic evaluation of their embodied capabilities remains underexplored, as existing benchmarks primarily focus on specific domains such as planning or spatial understanding. To bridge this gap, we introduce BEAR, a comprehensive and fine-grained benchmark that evaluates MLLMs on atomic embodied capabilities. BEAR comprises 4,469 interleaved image-video-text entries across 14 domains in 6 categories, including tasks from low-level pointing, trajectory understanding, spatial reasoning, to high-level planning. Extensive evaluation results of 20 representative MLLMs reveal their persistent limitations across all domains of embodied capabilities. To tackle the shortfall, we propose BEAR-Agent, a multimodal conversable agent that integrates pretrained vision models to strengthen MLLM perception, 3D understanding, and planning capabilities. It substantially enhances MLLM performance across diverse embodied capabilities on BEAR, yielding a 9.12% absolute gain and a relative improvement of 17.5% on GPT-5. Furthermore, our experiments indicate that improving MLLM embodied capabilities can benefit embodied tasks in simulated environments. Project website: https://bear-official66.github.io/