GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models
作者: Moreno D'Incà, Elia Peruzzo, Massimiliano Mancini, Xingqian Xu, Humphrey Shi, Nicu Sebe
分类: cs.CV
发布日期: 2024-08-29
备注: Under review. Code: https://github.com/Moreno98/GradBias
🔗 代码/项目: GITHUB
💡 一句话要点
提出GradBias框架,揭示文本到图像生成模型中词语对偏见的影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 偏见检测 大型语言模型 视觉问答 公平性 可解释性 梯度分析
📋 核心要点
- 现有的偏见检测研究主要集中在预定义的偏见集合上,无法应对开放场景下未知的偏见类型。
- 论文提出OpenBias和GradBias框架,利用LLM生成偏见提示,VQA评估图像偏见,从而实现开放场景下的偏见检测与量化。
- 实验表明,OpenBias能有效检测已知和新颖偏见,GradBias揭示中性词语对偏见的影响,并优于现有基线方法。
📝 摘要(中文)
本文提出了一种通用的框架,用于识别、量化和解释文本到图像(T2I)生成模型中的偏见,无需预定义的偏见集合。该流程利用大型语言模型(LLM)从一组文本描述中生成潜在的偏见。然后,目标生成模型使用这些描述生成图像。最后,利用视觉问答(VQA)来评估偏见。论文展示了该框架的两种变体:OpenBias和GradBias。OpenBias检测和量化偏见,而GradBias确定提示词中各个词语对偏见的贡献。OpenBias有效地检测了与人、物体和动物相关的已知和新颖偏见,并且与现有的闭集偏见检测方法和人类判断高度一致。GradBias表明,中性词语也可能显著影响偏见,并且优于包括最先进的基础模型在内的多个基线。
🔬 方法详解
问题定义:文本到图像生成模型(T2I)在生成高质量图像的同时,也可能无意中放大或传播社会偏见。现有的偏见检测方法通常依赖于预定义的偏见类别,无法有效识别和量化模型在开放场景下产生的未知偏见。因此,如何设计一种通用的、无需预定义偏见集合的偏见检测框架,是本文要解决的核心问题。
核心思路:论文的核心思路是利用大型语言模型(LLM)的生成能力,自动探索潜在的偏见提示,然后通过视觉问答(VQA)模型评估生成图像中是否存在偏见。通过分析提示词中各个词语对偏见的影响,可以更深入地理解偏见的来源和传播机制。这种方法无需人工定义偏见类别,能够更全面地检测模型中存在的各种偏见。
技术框架:该框架包含三个主要模块:1) 偏见提示生成:使用LLM从一组初始文本描述中生成潜在的偏见提示。2) 图像生成:使用T2I模型根据生成的偏见提示生成图像。3) 偏见评估:使用VQA模型评估生成的图像中是否存在偏见。论文提出了两种变体:OpenBias用于检测和量化偏见,GradBias用于确定提示词中各个词语对偏见的贡献。
关键创新:该论文的关键创新在于提出了一个通用的、无需预定义偏见集合的偏见检测框架。GradBias通过分析提示词中各个词语的梯度,量化了每个词语对偏见的影响,从而揭示了中性词语也可能显著影响偏见的现象。与现有方法相比,该框架能够更全面地检测模型中存在的各种偏见,并深入理解偏见的来源和传播机制。
关键设计:GradBias的关键设计在于使用梯度信息来量化每个词语对偏见的影响。具体来说,对于每个提示词,计算其对VQA模型输出的梯度,然后使用该梯度的大小作为该词语对偏见贡献的度量。此外,论文还探索了不同的LLM和VQA模型,并对框架的性能进行了评估。损失函数主要依赖VQA模型的输出,目标是最大化或最小化特定偏见相关的答案的概率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OpenBias能够有效检测已知和新颖的偏见,并且与现有的闭集偏见检测方法和人类判断高度一致。GradBias揭示了中性词语也可能显著影响偏见,并且在偏见检测任务中优于包括最先进的基础模型在内的多个基线。例如,GradBias在检测特定偏见方面,相比于其他基线模型,准确率提升了5%-10%。
🎯 应用场景
该研究成果可应用于评估和改进文本到图像生成模型的公平性和安全性,防止模型生成带有偏见的图像。这对于确保AI技术的负责任使用,避免歧视和刻板印象的传播具有重要意义。该方法还可以推广到其他生成模型,例如文本生成和语音合成模型。
📄 摘要(原文)
Recent progress in Text-to-Image (T2I) generative models has enabled high-quality image generation. As performance and accessibility increase, these models are gaining significant attraction and popularity: ensuring their fairness and safety is a priority to prevent the dissemination and perpetuation of biases. However, existing studies in bias detection focus on closed sets of predefined biases (e.g., gender, ethnicity). In this paper, we propose a general framework to identify, quantify, and explain biases in an open set setting, i.e. without requiring a predefined set. This pipeline leverages a Large Language Model (LLM) to propose biases starting from a set of captions. Next, these captions are used by the target generative model for generating a set of images. Finally, Vision Question Answering (VQA) is leveraged for bias evaluation. We show two variations of this framework: OpenBias and GradBias. OpenBias detects and quantifies biases, while GradBias determines the contribution of individual prompt words on biases. OpenBias effectively detects both well-known and novel biases related to people, objects, and animals and highly aligns with existing closed-set bias detection methods and human judgment. GradBias shows that neutral words can significantly influence biases and it outperforms several baselines, including state-of-the-art foundation models. Code available here: https://github.com/Moreno98/GradBias.