FairJudge: MLLM Judging for Social Attributes and Prompt Image Alignment
作者: Zahraa Al Sahili, Maryam Fetanat, Maimuna Nowaz, Ioannis Patras, Matthew Purver
分类: cs.CV, cs.LG
发布日期: 2025-10-26 (更新: 2025-11-18)
💡 一句话要点
FairJudge:利用多模态LLM评估图像生成模型在社会属性和提示对齐方面的公平性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态LLM 文本到图像生成 公平性评估 社会属性 提示对齐
📋 核心要点
- 现有文本到图像模型评估方法依赖表面线索,缺乏对社会属性的细粒度理解和可信的拒绝判断机制。
- FairJudge利用多模态LLM作为公平评判者,通过解释性规则、封闭标签集和证据约束,实现更可靠的评估。
- 实验表明,FairJudge在人口统计预测和对齐方面优于现有方法,并发布了新的多样化图像数据集DIVERSIFY。
📝 摘要(中文)
文本到图像(T2I)系统缺乏简单且可复现的方法来评估图像与提示的匹配程度以及模型对社会属性的处理方式。常见的代理指标,如人脸分类器和对比相似性,奖励表面线索,缺乏校准后的拒绝判断能力,并且忽略了仅微弱可见的属性(例如,宗教、文化、残疾)。我们提出了FairJudge,一种轻量级协议,将指令遵循型多模态LLM视为公平的评判者。它使用面向解释的评分标准(映射到[-1, 1])来评估对齐程度;将判断限制在封闭的标签集中;要求证据基于可见内容;并在线索不足时强制拒绝判断。与仅使用CLIP的流程不同,FairJudge产生可解释、感知证据的决策;与改变生成器的缓解措施不同,它针对评估公平性。我们在FairFace、PaTA和FairCoT上评估了性别、种族和年龄;扩展到宗教、文化和残疾;并在IdenProf、FairCoT-Professions和我们新的DIVERSIFY-Professions上评估了职业正确性和对齐程度。我们还发布了DIVERSIFY,一个包含469张多样化、非标志性场景的语料库。在所有数据集中,评判模型在人口统计预测方面优于对比和以人脸为中心的基线,并在保持高职业准确性的同时提高了平均对齐程度,从而实现了更可靠、可复现的公平性审计。
🔬 方法详解
问题定义:现有的文本到图像(T2I)模型评估方法,特别是针对社会属性的评估,存在以下痛点:依赖于表面线索(如人脸检测),缺乏对细微社会属性(如宗教、文化)的理解,无法有效处理提示与图像之间的对齐问题,并且缺乏可信的拒绝判断机制,导致评估结果不够准确和公平。
核心思路:FairJudge的核心思路是将大型多模态语言模型(MLLM)视为一个“公平的评判者”,利用其强大的理解能力和推理能力,对T2I模型生成的图像进行更全面、更细致的评估。通过设计合理的评估协议和约束条件,确保评估过程的公平性、可解释性和可靠性。
技术框架:FairJudge的整体框架包含以下几个主要模块:1) 提示和图像输入:接收文本提示和T2I模型生成的图像作为输入。2) MLLM评判模块:使用预训练的MLLM(如LLaVA、InstructBLIP等)作为评判者,根据预定义的评估规则和约束条件,对图像进行评估。3) 解释性规则:定义了一套面向解释的评分标准,将评估结果映射到[-1, 1]的范围内,并要求MLLM提供评估的依据和解释。4) 封闭标签集:将判断限制在一个预定义的封闭标签集中,避免MLLM产生不相关的或不准确的输出。5) 证据约束:要求MLLM的判断必须基于图像中可见的内容,避免基于先验知识或刻板印象进行判断。6) 拒绝判断机制:当图像中缺乏足够的线索时,强制MLLM拒绝判断,避免产生不准确的评估结果。
关键创新:FairJudge的关键创新在于:1) 将MLLM作为公平评判者:利用MLLM的强大能力,实现更全面、更细致的评估。2) 面向解释的评估规则:要求MLLM提供评估的依据和解释,提高评估的可解释性和可靠性。3) 证据约束和拒绝判断机制:避免基于先验知识或刻板印象进行判断,提高评估的公平性。
关键设计:FairJudge的关键设计包括:1) MLLM的选择:选择了具有强大理解和推理能力的MLLM,如LLaVA、InstructBLIP等。2) 评估规则的设计:设计了一套面向解释的评分标准,并将其映射到[-1, 1]的范围内。3) 封闭标签集的定义:定义了一个预定义的封闭标签集,用于限制MLLM的输出。4) 证据约束的实现:通过提示工程和后处理技术,确保MLLM的判断基于图像中可见的内容。5) 拒绝判断机制的实现:通过设置阈值和规则,强制MLLM在缺乏足够线索时拒绝判断。
🖼️ 关键图片
📊 实验亮点
FairJudge在多个数据集(FairFace、PaTA、FairCoT、IdenProf、FairCoT-Professions、DIVERSIFY-Professions)上进行了评估,结果表明,其在人口统计预测方面优于对比和以人脸为中心的基线,并在保持高职业准确性的同时提高了平均对齐程度。例如,在DIVERSIFY数据集上,FairJudge在评估图像与提示的对齐程度方面取得了显著提升。
🎯 应用场景
FairJudge可应用于评估和改进文本到图像生成模型在社会属性方面的公平性,例如性别、种族、年龄、宗教、文化和残疾。它有助于识别和纠正模型中的偏见,促进更公平、更包容的图像生成。此外,该方法还可用于评估图像搜索、图像分类等其他视觉任务中的公平性问题,具有广泛的应用前景。
📄 摘要(原文)
Text-to-image (T2I) systems lack simple, reproducible ways to evaluate how well images match prompts and how models treat social attributes. Common proxies -- face classifiers and contrastive similarity -- reward surface cues, lack calibrated abstention, and miss attributes only weakly visible (for example, religion, culture, disability). We present FairJudge, a lightweight protocol that treats instruction-following multimodal LLMs as fair judges. It scores alignment with an explanation-oriented rubric mapped to [-1, 1]; constrains judgments to a closed label set; requires evidence grounded in the visible content; and mandates abstention when cues are insufficient. Unlike CLIP-only pipelines, FairJudge yields accountable, evidence-aware decisions; unlike mitigation that alters generators, it targets evaluation fairness. We evaluate gender, race, and age on FairFace, PaTA, and FairCoT; extend to religion, culture, and disability; and assess profession correctness and alignment on IdenProf, FairCoT-Professions, and our new DIVERSIFY-Professions. We also release DIVERSIFY, a 469-image corpus of diverse, non-iconic scenes. Across datasets, judge models outperform contrastive and face-centric baselines on demographic prediction and improve mean alignment while maintaining high profession accuracy, enabling more reliable, reproducible fairness audits.