MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror

📄 arXiv: 2604.14785v1 📥 PDF

作者: Shengyu Guo, Tongrui Ye, Jianbo Zhang, Zicheng Zhang, Chunyi Li, Guangtao Zhai

分类: cs.AI

发布日期: 2026-04-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MirrorBench:通过引入镜像评估多模态大语言模型中的自我中心智能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 多模态大语言模型 自我中心智能 镜像自我识别 评估基准

📋 核心要点

  1. 现有具身智能基准侧重于外部对象交互,忽略了对自我中心智能的系统评估,无法全面衡量智能体能力。
  2. MirrorBench受心理学镜像自我识别测试启发,构建模拟环境,分层评估MLLM从视觉感知到自我表征的自我中心智能。
  3. 实验表明,即使在基础视觉感知层面,现有MLLM的性能也远低于人类,揭示了其在自我参照理解方面的不足。

📝 摘要(中文)

多模态大语言模型(MLLM)的最新进展表明,其在感知和推理方面取得了显著进步,暗示了它们在具身智能方面的潜力。虽然最近的研究评估了交互环境中的具身MLLM,但当前的基准主要针对感知、理解和与外部对象交互的能力,缺乏对自我中心智能的系统评估。为了解决这个问题,我们引入了MirrorBench,这是一个基于模拟的基准,灵感来自心理学中经典的镜像自我识别(MSR)测试。MirrorBench通过一个渐进式挑战任务的分层框架,将这种范式扩展到具身MLLM,从而评估智能体从基本的视觉感知到高级的自我表征。对领先MLLM的实验表明,即使在最低级别,它们的性能仍然远低于人类的性能,揭示了自我参照理解方面的根本局限性。我们的研究将心理学范式与具身智能联系起来,为评估大型模型中通用智能的出现提供了一个原则性框架。

🔬 方法详解

问题定义:现有具身智能评估基准主要关注智能体与外部环境的交互能力,缺乏对智能体自身认知能力的评估,即自我中心智能。这使得我们难以全面了解和提升智能体的智能水平。现有方法无法有效测试智能体是否能够识别自身、理解自身状态,以及基于自身状态进行决策。

核心思路:借鉴心理学中经典的镜像自我识别(MSR)测试,将该测试范式迁移到具身智能领域。通过构建一个模拟环境,让智能体与镜像交互,观察其行为反应,从而评估其自我认知能力。核心在于利用镜像这一媒介,迫使智能体进行自我参照,从而考察其是否具备自我意识。

技术框架:MirrorBench包含一个分层框架,由一系列难度递增的任务组成,旨在从不同层面评估智能体的自我中心智能。这些任务包括:1) 基础视觉感知:智能体需要识别镜像中的自己;2) 动作识别:智能体需要理解自己的动作在镜像中的反映;3) 自我表征:智能体需要理解自己的状态,并根据状态做出相应的决策。整个框架通过模拟环境实现,允许对智能体的行为进行精确控制和观察。

关键创新:该论文的关键创新在于将心理学中的MSR测试引入到具身智能评估中,提出了一个全新的评估框架。与现有方法相比,MirrorBench更加关注智能体的自我认知能力,能够更全面地评估智能体的智能水平。此外,分层任务设计使得评估过程更加细致,能够深入了解智能体在不同层面的自我认知能力。

关键设计:MirrorBench的关键设计包括:1) 精心设计的模拟环境,能够真实地模拟镜像交互过程;2) 分层任务设计,能够从不同层面评估智能体的自我认知能力;3) 详细的评估指标,能够量化智能体的表现。具体参数设置和网络结构取决于被评估的MLLM,MirrorBench作为一个评估框架,可以灵活地应用于不同的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使在最基础的视觉感知任务上,现有MLLM的性能也远低于人类水平,这表明现有模型在自我参照理解方面存在根本性局限。具体而言,MLLM在识别镜像中的自身时,表现出明显的困难,这反映了其在自我认知方面的不足。这些结果强调了进一步研究和提升MLLM自我中心智能的必要性。

🎯 应用场景

MirrorBench可用于评估和提升具身智能体的自我认知能力,从而促进其在机器人、自动驾驶、虚拟助手等领域的应用。例如,在机器人领域,具备自我认知能力的机器人可以更好地理解自身状态,从而更安全、更有效地完成任务。在自动驾驶领域,具备自我认知能力的车辆可以更好地理解自身位置和状态,从而更安全地行驶。

📄 摘要(原文)

Recent progress in Multimodal Large Language Models (MLLMs) has demonstrated remarkable advances in perception and reasoning, suggesting their potential for embodied intelligence. While recent studies have evaluated embodied MLLMs in interactive settings, current benchmarks mainly target capabilities to perceive, understand, and interact with external objects, lacking a systematic evaluation of self-centric intelligence. To address this, we introduce MirrorBench, a simulation-based benchmark inspired by the classical Mirror Self-Recognition (MSR) test in psychology. MirrorBench extends this paradigm to embodied MLLMs through a tiered framework of progressively challenging tasks, assessing agents from basic visual perception to high-level self-representation. Experiments on leading MLLMs show that even at the lowest level, their performance remains substantially inferior to human performance, revealing fundamental limitations in self-referential understanding. Our study bridges psychological paradigms and embodied intelligence, offering a principled framework for evaluating the emergence of general intelligence in large models. Project page: https://fflahm.github.io/mirror-bench-page/.