Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models

📄 arXiv: 2509.26165v3 📥 PDF

作者: Yuansen Liu, Haiming Tang, Jinlong Peng, Jiangning Zhang, Xiaozhong Ji, Qingdong He, Wenbin Wu, Donghao Luo, Zhenye Gan, Junwei Zhu, Yunhang Shen, Chaoyou Fu, Chengjie Wang, Xiaobin Hu, Shuicheng Yan

分类: cs.CV

发布日期: 2025-09-30 (更新: 2025-10-15)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Human-MME基准,用于全面评估以人为中心的多模态大语言模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 人类中心场景理解 评估基准 视觉理解 因果推理

📋 核心要点

  1. 现有MLLM在理解以人为中心的场景方面能力不足,缺乏同时考虑细粒度和高维度推理的综合评估基准。
  2. 提出Human-MME基准,包含多样化的人类场景、渐进式的评估维度和高质量的注释,以实现更全面的评估。
  3. 在17个SOTA MLLM上的实验表明,Human-MME能有效暴露模型在人类中心图像理解方面的局限性,并指导未来研究。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视觉理解任务中取得了显著进展。然而,它们理解以人为中心的场景的能力很少被探索,这主要是由于缺乏全面的评估基准,这些基准既考虑了以人为本的细粒度级别,又考虑了更高维度的因果推理能力。鉴于人体的物理复杂性和注释细粒度结构的难度,这种高质量的评估基准面临着严峻的挑战。在本文中,我们提出了Human-MME,这是一个精心设计的基准,旨在为MLLM在以人为中心的场景理解中提供更全面的评估。与其他现有基准相比,我们的工作提供了三个关键特征:1. 人类场景的多样性,跨越4个主要视觉领域,包含15个二级领域和43个子领域,以确保广泛的场景覆盖。2. 渐进和多样的评估维度,从以人为本的细粒度感知到更高维度的推理,逐步评估基于人类的活动,包括八个维度,包含19,945个真实世界的图像问题对和一个评估套件。3. 具有丰富数据范式的高质量注释,构建自动化注释管道和人工注释平台,支持严格的人工标注,以促进精确和可靠的模型评估。我们的基准通过构建选择、简答、定位、排序和判断问题组件以及它们的组合的复杂问题,将单目标理解扩展到多人和多图像的相互理解。对17个最先进的MLLM的广泛实验有效地暴露了局限性,并指导未来的MLLM研究朝着更好的人类中心图像理解方向发展。所有数据和代码都可以在https://github.com/Yuan-Hou/Human-MME上找到。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLMs)在通用视觉理解任务上表现出色,但在理解以人为中心的复杂场景时面临挑战。主要痛点在于缺乏一个专门针对人类场景的综合评估基准,现有基准无法充分考察模型对人体姿态、动作、交互以及更高层次因果推理的理解能力。标注细粒度的人体结构和构建复杂的推理问题也增加了基准构建的难度。

核心思路:Human-MME的核心思路是构建一个全面、多样且高质量的评估基准,以系统地评估MLLMs在理解以人为中心的场景方面的能力。该基准通过覆盖广泛的人类场景、设计渐进式的评估维度和提供高质量的注释来实现这一目标。通过这种方式,可以更准确地识别MLLMs的优势和不足,并指导未来的研究方向。

技术框架:Human-MME基准的构建包含以下几个主要阶段:1. 数据收集:收集包含各种人类场景的图像数据,覆盖4个主要视觉领域、15个二级领域和43个子领域。2. 问题设计:设计包含选择题、简答题、定位题、排序题和判断题等多种类型的题目,以评估模型在不同维度上的理解能力。3. 注释:构建自动化注释管道和人工注释平台,进行高质量的标注,确保评估的准确性和可靠性。4. 评估:使用设计的题目和注释对MLLMs进行评估,分析模型的性能表现。

关键创新:Human-MME的关键创新在于其全面性和多样性。它不仅考虑了以人为本的细粒度感知,还考虑了更高维度的推理能力。此外,该基准还支持单目标理解到多人和多图像相互理解的扩展,使其能够更全面地评估MLLMs在复杂场景下的理解能力。

关键设计:Human-MME的关键设计包括:1. 多样化的场景覆盖:确保基准包含各种不同的人类场景,以评估模型在不同场景下的泛化能力。2. 渐进式的评估维度:从细粒度感知到高维度推理,逐步评估模型在不同层次上的理解能力。3. 高质量的注释:采用自动化注释和人工注释相结合的方式,确保注释的准确性和可靠性。4. 多种问题类型:设计包含选择题、简答题、定位题、排序题和判断题等多种类型的题目,以评估模型在不同维度上的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对17个最先进的MLLM进行了广泛的实验,结果表明,这些模型在Human-MME基准上表现出明显的局限性,尤其是在需要细粒度理解和高维度推理的任务上。例如,模型在理解复杂的人体姿态和动作,以及进行因果推理方面表现较差。这些实验结果有效地暴露了现有MLLM的不足,并为未来的研究提供了明确的方向。

🎯 应用场景

Human-MME基准的潜在应用领域包括智能监控、人机交互、自动驾驶、医疗诊断等。通过提高MLLM对人类行为和意图的理解能力,可以改善这些应用的用户体验和安全性。例如,在智能监控中,可以更准确地识别异常行为;在人机交互中,可以实现更自然和流畅的交互;在自动驾驶中,可以更安全地预测行人的行为。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have demonstrated significant advances in visual understanding tasks. However, their capacity to comprehend human-centric scenes has rarely been explored, primarily due to the absence of comprehensive evaluation benchmarks that take into account both the human-oriented granular level and higher-dimensional causal reasoning ability. Such high-quality evaluation benchmarks face tough obstacles, given the physical complexity of the human body and the difficulty of annotating granular structures. In this paper, we propose Human-MME, a curated benchmark designed to provide a more holistic evaluation of MLLMs in human-centric scene understanding. Compared with other existing benchmarks, our work provides three key features: 1. Diversity in human scene, spanning 4 primary visual domains with 15 secondary domains and 43 sub-fields to ensure broad scenario coverage. 2. Progressive and diverse evaluation dimensions, evaluating the human-based activities progressively from the human-oriented granular perception to the higher-dimensional reasoning, consisting of eight dimensions with 19,945 real-world image question pairs and an evaluation suite. 3. High-quality annotations with rich data paradigms, constructing the automated annotation pipeline and human-annotation platform, supporting rigorous manual labeling to facilitate precise and reliable model assessment. Our benchmark extends the single-target understanding to the multi-person and multi-image mutual understanding by constructing the choice, short-answer, grounding, ranking and judgment question components, and complex questions of their combination. The extensive experiments on 17 state-of-the-art MLLMs effectively expose the limitations and guide future MLLMs research toward better human-centric image understanding. All data and code are available at https://github.com/Yuan-Hou/Human-MME.