Refusal as Silence: Gendered Disparities in Vision-Language Model Responses

📄 arXiv: 2406.08222v3 📥 PDF

作者: Sha Luo, Sang Jung Kim, Zening Duan, Kaiping Chen

分类: cs.CV, cs.AI, cs.CY, cs.HC

发布日期: 2024-06-12 (更新: 2025-10-27)


💡 一句话要点

通过性别化身份提示,揭示视觉语言模型拒绝行为中的性别歧视

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 性别歧视 算法公平性 拒绝行为 反事实分析

📋 核心要点

  1. 大型语言模型的内容审核中,拒绝行为越来越普遍,但不同身份用户的拒绝率差异尚不明确。
  2. 该研究通过构建不同性别身份的角色,在视觉语言模型中探究身份提示对拒绝行为的影响。
  3. 实验发现,即使在无害情境下,跨性别和非二元性别角色遭遇的拒绝率显著高于其他性别。

📝 摘要(中文)

大型语言模型的拒绝行为在内容审核中日益常见,但对于拒绝行为如何因提出请求的用户的身份而异,我们知之甚少。本研究通过反事实角色设计来研究拒绝行为作为一种社会技术结果,该设计改变了性别身份(包括男性、女性、非二元性别和跨性别角色),同时保持分类任务和视觉输入不变。我们专注于视觉语言模型(GPT-4V),研究基于身份的语言提示如何影响二元性别分类任务中的拒绝行为。我们发现,即使在非有害的上下文中,跨性别和非二元性别角色也会经历显著更高的拒绝率。我们的研究结果还为使用LLM进行公平性审计和内容分析提供了方法论意义。我们的研究结果强调了对身份驱动的差异进行建模的重要性,并警告不要不加批判地使用人工智能系统进行内容编码。本研究通过将拒绝重新定义为一种交流行为,这种行为可能不均衡地调节认知访问和参与,从而推进了算法公平性。

🔬 方法详解

问题定义:论文旨在研究视觉语言模型(特别是GPT-4V)在处理涉及不同性别身份的请求时,是否存在拒绝行为上的差异。现有方法缺乏对用户身份(特别是性别身份)与模型拒绝行为之间关系的深入分析,可能导致模型在内容审核和分类任务中产生不公平的结果。

核心思路:论文的核心思路是通过构建反事实的角色(persona),改变用户的性别身份(男性、女性、非二元性别、跨性别),同时保持视觉输入和分类任务不变,以此来探究性别身份对模型拒绝行为的影响。这种方法能够隔离性别身份作为变量,从而更清晰地揭示模型中的潜在偏见。

技术框架:研究采用GPT-4V作为视觉语言模型,并设计了一系列二元性别分类任务。这些任务涉及向模型提供图像和文本提示,要求模型判断图像中人物的性别。关键在于,文本提示中包含了不同性别身份的角色信息。通过统计不同性别身份角色在相同任务下的拒绝率,来评估模型是否存在性别歧视。

关键创新:论文的关键创新在于将拒绝行为视为一种社会技术结果,并将其与用户的性别身份联系起来。通过反事实角色设计,论文能够系统地研究性别身份对模型拒绝行为的影响,从而揭示了模型中存在的潜在偏见。这种方法为评估和改进人工智能系统的公平性提供了新的视角。

关键设计:研究的关键设计包括:1) 精心设计的文本提示,确保性别身份信息清晰明确;2) 控制变量,保持视觉输入和分类任务不变,以隔离性别身份的影响;3) 统计分析,比较不同性别身份角色在相同任务下的拒绝率,并进行显著性检验;4) 关注非二元性别和跨性别角色,因为这些群体在现有研究中往往被忽视。

📊 实验亮点

研究发现,即使在非有害的二元性别分类任务中,GPT-4V对跨性别和非二元性别角色的拒绝率显著高于男性和女性角色。这一结果表明,视觉语言模型可能存在对特定性别身份的偏见,需要进一步研究和改进。

🎯 应用场景

该研究成果可应用于改进视觉语言模型的内容审核机制,减少性别歧视,提高算法公平性。同时,该研究方法可推广到其他身份属性(如种族、年龄等)的偏见检测,为构建更公平、包容的人工智能系统提供指导。

📄 摘要(原文)

Refusal behavior by Large Language Models is increasingly visible in content moderation, yet little is known about how refusals vary by the identity of the user making the request. This study investigates refusal as a sociotechnical outcome through a counterfactual persona design that varies gender identity--including male, female, non-binary, and transgender personas--while keeping the classification task and visual input constant. Focusing on a vision-language model (GPT-4V), we examine how identity-based language cues influence refusal in binary gender classification tasks. We find that transgender and non-binary personas experience significantly higher refusal rates, even in non-harmful contexts. Our findings also provide methodological implications for equity audits and content analysis using LLMs. Our findings underscore the importance of modeling identity-driven disparities and caution against uncritical use of AI systems for content coding. This study advances algorithmic fairness by reframing refusal as a communicative act that may unevenly regulate epistemic access and participation.