Face-Human-Bench: A Comprehensive Benchmark of Face and Human Understanding for Multi-modal Assistants
作者: Lixiong Qin, Shilong Ou, Miaoxuan Zhang, Jiangning Wei, Yuhang Zhang, Xiaoshuai Song, Yuchen Liu, Mei Wang, Weiran Xu
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-01-02 (更新: 2025-10-23)
备注: 50 pages, 14 figures, 42 tables. NeurIPS 2025 Datasets and Benchmarks Track
💡 一句话要点
提出Face-Human-Bench,用于全面评估多模态助手在人脸和人体理解方面的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 人脸理解 人体理解 基准数据集 大型语言模型 能力评估 计算机视觉
📋 核心要点
- 现有多模态助手在人脸和人体理解方面缺乏全面、科学的评估基准。
- 构建层级能力分类法,并基于此构建半自动数据管道,生成包含1800个问题的Face-Human-Bench数据集。
- 评估了25个主流MLLM,分析了能力相关性、目标位置影响和CoT提示效果,并探索了专业模型补充需求。
📝 摘要(中文)
人脸和人体是社交互动中的关键元素,广泛存在于日常照片和视频中。因此,对人脸和人体的深入理解将使多模态助手能够提高响应质量并扩大应用范围。目前,多模态助手社区缺乏对人脸和人体理解能力的全面和科学的评估。在本文中,我们首先提出了一个包含三个层次能力的层级能力分类法。然后,基于此分类法,我们从人脸和人体社区的公开数据集中收集图像和注释,并构建一个半自动数据管道来为新的基准生成问题。最后,我们获得的Face-Human-Bench包括一个开发集和一个测试集,每个集合包含1800个问题,支持英语和中文。我们使用Face-Human-Bench对25个主流多模态大型语言模型(MLLM)进行了评估,重点关注能力之间的相关性、目标相对位置对性能的影响以及思维链(CoT)提示对性能的影响。我们还探讨了MLLM的哪些能力需要由专业模型来补充。数据集和评估代码已在https://face-human-bench.github.io上公开。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLMs)在人脸和人体理解方面缺乏系统性评估的问题。现有的评估方法通常侧重于特定任务或数据集,无法全面衡量MLLMs在理解人脸和人体相关信息方面的能力,阻碍了多模态助手的发展。
核心思路:论文的核心思路是构建一个综合性的基准数据集Face-Human-Bench,该数据集基于一个层级能力分类法,涵盖了人脸和人体理解的多个方面。通过在该基准上评估MLLMs,可以更全面地了解它们的优势和不足,并指导未来的模型改进。
技术框架:Face-Human-Bench的构建流程主要包括以下几个阶段: 1. 能力分类法构建:定义人脸和人体理解的层级能力体系,包括多个层次和细粒度的能力。 2. 数据收集与标注:从公开数据集收集图像和标注,涵盖各种人脸和人体相关的场景和属性。 3. 问题生成:利用半自动数据管道,根据能力分类法和图像标注生成问题,包括英语和中文版本。 4. 数据集划分:将生成的问题划分为开发集和测试集,用于模型训练和评估。
关键创新:该论文的关键创新在于提出了一个综合性的基准数据集Face-Human-Bench,它不仅涵盖了人脸和人体理解的多个方面,还提供了一个统一的评估平台,方便研究人员比较不同MLLMs的性能。与现有方法相比,Face-Human-Bench更加全面、系统和易于使用。
关键设计: 1. 层级能力分类法:该分类法是Face-Human-Bench的基础,它定义了人脸和人体理解的各个方面,并将其组织成一个层级结构。 2. 半自动数据管道:该管道可以高效地生成大量高质量的问题,并支持英语和中文两种语言。 3. 问题类型设计:问题类型多样,涵盖了人脸识别、属性识别、关系推理等多个方面,能够全面评估MLLMs的能力。
🖼️ 关键图片
📊 实验亮点
论文评估了25个主流多模态大型语言模型(MLLMs),结果表明,MLLMs在不同能力上的表现存在差异,且目标相对位置和思维链(CoT)提示对性能有显著影响。此外,研究还发现某些MLLM的能力需要由专业模型来补充,例如在细粒度的人脸属性识别方面。
🎯 应用场景
该研究成果可广泛应用于多模态助手、智能监控、人机交互等领域。通过提升多模态助手对人脸和人体的理解能力,可以改善用户体验,扩展应用场景,例如在智能家居中实现更自然的人机交互,在安防监控中实现更精准的人员识别和行为分析。未来,该基准可以促进相关算法的进步,推动多模态人工智能的发展。
📄 摘要(原文)
Faces and humans are crucial elements in social interaction and are widely included in everyday photos and videos. Therefore, a deep understanding of faces and humans will enable multi-modal assistants to achieve improved response quality and broadened application scope. Currently, the multi-modal assistant community lacks a comprehensive and scientific evaluation of face and human understanding abilities. In this paper, we first propose a hierarchical ability taxonomy that includes three levels of abilities. Then, based on this taxonomy, we collect images and annotations from publicly available datasets in the face and human community and build a semi-automatic data pipeline to produce problems for the new benchmark. Finally, the obtained Face-Human-Bench includes a development set and a test set, each with 1800 problems, supporting both English and Chinese. We conduct evaluations over 25 mainstream multi-modal large language models (MLLMs) with our Face-Human-Bench, focusing on the correlation between abilities, the impact of the relative position of targets on performance, and the impact of Chain of Thought (CoT) prompting on performance. We also explore which abilities of MLLMs need to be supplemented by specialist models. The dataset and evaluation code have been made publicly available at https://face-human-bench.github.io.