FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs
作者: Xiaoqin Wang, Xusen Ma, Xianxu Hou, Meidan Ding, Yudong Li, Junliang Chen, Wenting Chen, Xiaoyang Peng, Linlin Shen
分类: cs.CV
发布日期: 2025-03-27
备注: Accepted by CVPR2025
🔗 代码/项目: GITHUB
💡 一句话要点
FaceBench:用于评估人脸感知多模态大语言模型的多视角多层次人脸属性VQA数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人脸感知 多模态大语言模型 视觉问答 人脸属性 数据集 基准测试 分层属性 Face-LLaVA
📋 核心要点
- 现有MLLM在人脸感知方面能力评估不足,缺乏专门针对人脸属性的评估数据集。
- 构建分层多视角多层次人脸属性结构,并基于此创建大规模人脸VQA数据集FaceBench。
- 提出Face-LLaVA,通过FaceBench数据训练,在人脸感知任务上显著优于现有开源模型。
📝 摘要(中文)
多模态大语言模型(MLLMs)在各种任务中展现了卓越的能力。然而,有效评估这些MLLMs在人脸感知方面的能力在很大程度上仍未被探索。为了解决这一差距,我们推出了FaceBench,这是一个具有分层多视角和多层次属性的数据集,专门用于评估MLLMs的全面人脸感知能力。最初,我们构建了一个分层人脸属性结构,包含五个视角,最多三个层次的属性,总计超过210个属性和700个属性值。基于该结构,我们提出的FaceBench包含49,919个用于评估的视觉问答(VQA)对和23,841个用于微调的VQA对。此外,我们还通过使用我们提出的face VQA数据进行训练,进一步开发了一个强大的人脸感知MLLM基线,Face-LLaVA。在各种主流MLLMs和Face-LLaVA上进行了广泛的实验,以测试它们的人脸感知能力,并将结果与人类表现进行了比较。结果表明,现有的MLLMs在理解细粒度的人脸属性方面远不能令人满意,而我们的Face-LLaVA通过少量训练数据显著优于现有的开源模型,并且与GPT-4o和Gemini等商业模型相当。该数据集将在https://github.com/CVI-SZU/FaceBench上发布。
🔬 方法详解
问题定义:现有的大型多模态模型(MLLMs)在人脸感知方面的能力评估不足,缺乏专门针对人脸属性的细粒度、多层次评估数据集。现有方法难以有效评估 MLLM 对人脸属性的理解能力,特别是对于细粒度和多层次的属性。
核心思路:论文的核心思路是构建一个包含丰富人脸属性标注的视觉问答(VQA)数据集,即FaceBench。通过设计多视角、多层次的属性结构,并生成相应的VQA对,来全面评估 MLLM 在人脸感知方面的能力。这样设计的目的是为了更全面、细致地考察模型对人脸不同方面的理解。
技术框架:FaceBench的构建包含以下几个主要步骤:1)构建分层人脸属性结构,包含五个视角和多个层次的属性;2)基于该结构,生成大规模的VQA对,用于评估和微调;3)训练一个基于LLaVA的baseline模型Face-LLaVA;4)在多个MLLM上进行实验,并与人类表现进行对比。
关键创新:论文的关键创新在于:1)提出了一个分层多视角多层次的人脸属性结构,能够更全面地描述人脸属性;2)构建了一个大规模的人脸VQA数据集FaceBench,专门用于评估MLLM的人脸感知能力;3)提出了Face-LLaVA,一个基于LLaVA并使用FaceBench数据训练的人脸感知MLLM。
关键设计:FaceBench数据集包含49,919个用于评估的VQA对和23,841个用于微调的VQA对。人脸属性结构包含五个视角,最多三个层次的属性,总计超过210个属性和700个属性值。Face-LLaVA基于LLaVA架构,使用FaceBench数据进行微调。实验中,将Face-LLaVA与多个主流MLLM(包括开源和商业模型)进行对比,并与人类表现进行比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在理解细粒度人脸属性方面表现不佳。Face-LLaVA通过少量FaceBench数据训练,显著优于现有开源模型,性能与GPT-4o和Gemini等商业模型相当。这验证了FaceBench数据集的有效性和Face-LLaVA模型的优越性。
🎯 应用场景
该研究成果可应用于人脸识别、人脸属性编辑、智能监控、人机交互等领域。FaceBench数据集和Face-LLaVA模型可以作为基准,促进人脸感知多模态大语言模型的发展。未来,可以进一步探索更复杂的人脸属性和场景,提升模型在实际应用中的鲁棒性和泛化能力。
📄 摘要(原文)
Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in various tasks. However, effectively evaluating these MLLMs on face perception remains largely unexplored. To address this gap, we introduce FaceBench, a dataset featuring hierarchical multi-view and multi-level attributes specifically designed to assess the comprehensive face perception abilities of MLLMs. Initially, we construct a hierarchical facial attribute structure, which encompasses five views with up to three levels of attributes, totaling over 210 attributes and 700 attribute values. Based on the structure, the proposed FaceBench consists of 49,919 visual question-answering (VQA) pairs for evaluation and 23,841 pairs for fine-tuning. Moreover, we further develop a robust face perception MLLM baseline, Face-LLaVA, by training with our proposed face VQA data. Extensive experiments on various mainstream MLLMs and Face-LLaVA are conducted to test their face perception ability, with results also compared against human performance. The results reveal that, the existing MLLMs are far from satisfactory in understanding the fine-grained facial attributes, while our Face-LLaVA significantly outperforms existing open-source models with a small amount of training data and is comparable to commercial ones like GPT-4o and Gemini. The dataset will be released at https://github.com/CVI-SZU/FaceBench.