Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals
作者: Phillip Howard, Kathleen C. Fraser, Anahita Bhiwandiwalla, Svetlana Kiritchenko
分类: cs.CV
发布日期: 2024-05-30 (更新: 2025-04-30)
备注: Accepted to NAACL 2025 main track (oral)
💡 一句话要点
利用对抗样本大规模揭示大型视觉语言模型中的偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 社会偏见 对抗样本 多模态学习 公平性 可解释性 图像生成 文本生成
📋 核心要点
- 大型视觉语言模型(LVLMs)在多模态任务中表现出色,但其潜在的社会偏见尚未得到充分研究。
- 该研究通过对输入图像进行对抗性修改,大规模评估LVLMs在生成文本时受到的社会属性影响。
- 实验结果表明,图像中的种族、性别等属性会显著影响LVLMs生成文本的毒性、刻板印象和能力评价。
📝 摘要(中文)
随着大型语言模型(LLMs)能力的日益增强,许多大型视觉语言模型(LVLMs)被提出,以利用视觉输入来增强LLMs。这些模型基于输入图像和文本提示生成文本,从而实现各种用例,如视觉问答和多模态聊天。虽然之前的研究已经检查了LLMs生成的文本中包含的社会偏见,但LVLMs中的这一主题相对未被探索。由于文本和视觉模态中包含的信息所引起的偏见的混淆贡献,检查LVLMs中的社会偏见尤其具有挑战性。为了解决这个具有挑战性的问题,我们对不同LVLMs在输入图像的对抗性变化下生成的文本进行了大规模研究,产生了来自流行模型的超过5700万个响应。我们的多维度偏见评估框架揭示了图像中描绘的感知种族、性别和身体特征等社会属性会显著影响有毒内容的生成、与能力相关的词语、有害的刻板印象以及对个人的数值评分。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLMs)在生成文本时,可能会受到图像中隐含的社会属性(如种族、性别、体貌特征)的影响,从而产生带有偏见或歧视性的内容。由于视觉和文本模态的复杂交互,很难准确评估和量化这些偏见。现有的方法难以区分是由视觉输入还是文本提示引起的偏见,缺乏大规模、细粒度的分析。
核心思路:该论文的核心思路是通过对抗性样本(counterfactual images)来隔离和评估视觉输入对LVLM偏见的影响。具体来说,通过对输入图像进行细微的修改(例如改变人物的肤色、发型等),来观察LVLM生成文本的变化。如果LVLM对这些细微的视觉变化产生显著不同的文本输出,则表明该模型存在对相应社会属性的偏见。
技术框架:该研究构建了一个大规模的偏见评估框架,主要包含以下几个阶段:1) 数据生成:收集包含人物图像和相关文本提示的数据集。2) 对抗样本生成:对图像进行对抗性修改,生成一系列具有不同社会属性的图像变体。3) LVLM推理:将原始图像和对抗样本输入到不同的LVLM中,生成相应的文本响应。4) 偏见评估:使用多种指标(如毒性评分、刻板印象评分、能力相关词语频率等)来评估LVLM生成文本中的偏见程度。
关键创新:该研究的关键创新在于利用对抗性样本来解耦视觉和文本模态对LVLM偏见的影响。通过控制视觉输入的变化,可以更准确地评估LVLM对不同社会属性的敏感程度。此外,该研究还进行了大规模的实验,分析了多个流行的LVLM在不同偏见指标上的表现。
关键设计:在对抗样本生成方面,研究人员采用了多种图像编辑技术,例如改变人物的肤色、发型、服装等。在偏见评估方面,研究人员使用了多种自动化的指标,例如Perspective API来评估文本的毒性,以及使用预定义的词典来评估文本中与能力相关的词语的频率。此外,研究人员还设计了一套人工评估流程,用于验证自动化评估结果的准确性。
🖼️ 关键图片
📊 实验亮点
该研究通过对超过5700万个LVLM响应进行分析,揭示了图像中的社会属性(如种族、性别)会显著影响LVLM生成文本的毒性、刻板印象和能力评价。例如,某些LVLM在描述具有特定种族或性别特征的人物时,会生成更多带有负面情绪或刻板印象的文本。该研究还发现,不同LVLM在偏见方面的表现存在差异,表明模型架构和训练数据对偏见有重要影响。
🎯 应用场景
该研究成果可应用于开发更公平、更可靠的视觉语言模型。通过识别和减轻LVLM中的偏见,可以避免模型在实际应用中产生歧视性或有害的内容,例如在图像描述、视觉问答、多模态对话等场景中。该研究还有助于提高公众对AI偏见的认识,促进负责任的AI开发。
📄 摘要(原文)
With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images, producing over 57 million responses from popular models. Our multi-dimensional bias evaluation framework reveals that social attributes such as perceived race, gender, and physical characteristics depicted in images can significantly influence the generation of toxic content, competency-associated words, harmful stereotypes, and numerical ratings of individuals.