Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification

📄 arXiv: 2603.25613v1 📥 PDF

作者: Ünsal Öztürk, Hatef Otroshi Shahreza, Sébastien Marcel

分类: cs.CV, cs.AI

发布日期: 2026-03-26

备注: Accepted in CVPR 2026 workshops


💡 一句话要点

评估多模态大语言模型在人脸验证中的性别和种族偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 人脸验证 公平性 偏见评估 基准测试

📋 核心要点

  1. 现有MLLM人脸验证系统缺乏对人口统计学公平性的充分评估,可能导致对特定群体的不公平待遇。
  2. 通过基准测试研究,系统性地评估了多个MLLM在不同种族和性别群体中的人脸验证性能和偏见。
  3. 实验结果表明,专用人脸模型优于通用模型,且偏见模式与传统人脸识别不同,准确率高的模型不一定公平。

📝 摘要(中文)

本文针对多模态大语言模型(MLLMs)在人脸验证任务中的人口统计学公平性进行了基准测试研究。与专用人脸识别系统不同,MLLMs通过视觉提示并依赖于通用的视觉和推理能力来完成此任务。研究评估了来自六个模型系列的九个开源MLLMs(参数规模从2B到8B),在IJB-C和RFW人脸验证协议上,针对四个种族群体和两个性别群体进行了测试。使用等错误率(EER)和在多个操作点上的真实匹配率(TMR)来衡量验证准确性,并使用四种基于FMR的公平性指标来量化人口统计学差异。结果表明,FaceLLM-8B(研究中唯一的人脸专用模型)在两个基准测试中均显著优于通用MLLMs。观察到的偏见模式与传统人脸识别中常见的模式不同,受影响最大的群体因基准测试和模型而异。此外,最准确的模型不一定是最公平的,而总体准确性较差的模型可能看起来很公平,仅仅是因为它们在所有人口统计群体中产生了一致的高错误率。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在人脸验证任务中存在的潜在人口统计学偏见问题。现有的人脸识别系统已经被发现存在对特定种族和性别群体的偏见,而MLLMs作为新兴的人脸验证方法,其公平性尚未得到充分研究。因此,论文关注的问题是:MLLMs在人脸验证任务中是否也存在人口统计学偏见?这种偏见在不同模型和数据集上的表现如何?

核心思路:论文的核心思路是通过构建一个全面的基准测试,系统性地评估多个MLLMs在不同人口统计学群体中的人脸验证性能。通过对比不同模型在不同群体上的准确率和公平性指标,揭示MLLMs在人脸验证任务中存在的偏见模式。这种方法能够帮助研究者和开发者更好地理解MLLMs的局限性,并为开发更公平的人脸验证系统提供指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 选择多个开源MLLMs作为评估对象;2) 选择IJB-C和RFW两个常用的人脸验证数据集,并根据种族和性别进行划分;3) 使用等错误率(EER)和真实匹配率(TMR)等指标衡量验证准确性;4) 使用基于FMR的公平性指标(如Equal Opportunity Difference, Statistical Parity Difference等)量化人口统计学差异;5) 对比不同模型在不同群体上的性能,分析偏见模式。

关键创新:论文的关键创新在于首次对MLLMs在人脸验证任务中的人口统计学公平性进行了系统的基准测试。与以往的研究主要关注传统人脸识别系统的偏见不同,论文关注的是新兴的MLLMs,并揭示了它们在人脸验证任务中可能存在的偏见模式。此外,论文还发现,MLLMs的偏见模式与传统人脸识别系统不同,这表明需要针对MLLMs开发专门的公平性评估和缓解方法。

关键设计:论文的关键设计包括:1) 选择了多个具有代表性的开源MLLMs,涵盖了不同的模型架构和参数规模;2) 选择了IJB-C和RFW两个常用的人脸验证数据集,以保证结果的可靠性和可比性;3) 使用了多种公平性指标,以全面评估模型在不同人口统计学群体中的表现;4) 针对每个模型和数据集,都进行了多次实验,以减少随机误差的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FaceLLM-8B在IJB-C和RFW数据集上显著优于通用MLLMs。研究还发现,最准确的模型不一定是最公平的,且不同模型在不同数据集上的偏见模式存在差异。例如,某些模型在特定种族群体上的表现明显较差,而另一些模型则在特定性别群体上存在偏见。

🎯 应用场景

该研究成果可应用于人脸识别、身份验证、安全监控等领域,有助于提升相关系统在不同人群中的公平性和可靠性。通过揭示多模态大语言模型在人脸验证中的偏见,可以指导开发者设计更公平、更具包容性的人工智能系统,避免歧视性结果,促进技术在社会中的积极应用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have recently been explored as face verification systems that determine whether two face images are of the same person. Unlike dedicated face recognition systems, MLLMs approach this task through visual prompting and rely on general visual and reasoning abilities. However, the demographic fairness of these models remains largely unexplored. In this paper, we present a benchmarking study that evaluates nine open-source MLLMs from six model families, ranging from 2B to 8B parameters, on the IJB-C and RFW face verification protocols across four ethnicity groups and two gender groups. We measure verification accuracy with the Equal Error Rate and True Match Rate at multiple operating points per demographic group, and we quantify demographic disparity with four FMR-based fairness metrics. Our results show that FaceLLM-8B, the only face-specialised model in our study, substantially outperforms general-purpose MLLMs on both benchmarks. The bias patterns we observe differ from those commonly reported for traditional face recognition, with different groups being most affected depending on the benchmark and the model. We also note that the most accurate models are not necessarily the fairest and that models with poor overall accuracy can appear fair simply because they produce uniformly high error rates across all demographic groups.