Identifying Features Associated with Bias Against 93 Stigmatized Groups in Language Models and Guardrail Model Safety Mitigation

📄 arXiv: 2512.19238v1 📥 PDF

作者: Anna-Maria Gueorguieva, Aylin Caliskan

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-22


💡 一句话要点

研究发现LLM对污名化群体的偏见与污名特征相关,并评估了安全模型缓解效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型偏见 污名化群体 社会特征 Guardrail模型 偏见缓解 社会公平 LLM安全

📋 核心要点

  1. 现有研究对LLM中针对非保护性污名化群体的偏见关注不足,且缺乏对污名社会特征与偏见关联的深入理解。
  2. 本研究通过分析污名的六个社会特征(美学、可隐藏性等)与LLM偏见输出之间的关系,揭示了影响偏见的关键因素。
  3. 实验表明,高度危险的污名与LLM输出中的偏见程度显著相关,且现有guardrail模型在缓解偏见方面存在局限性。

📝 摘要(中文)

大型语言模型(LLM)已显示出社会偏见,但对非受保护的污名化身份的偏见仍然研究不足。此外,污名的哪些社会特征与LLM输出中的偏见相关仍然未知。心理学文献表明,污名包含六个共同的社会特征:美学、可隐藏性、过程、破坏性、起源和危险性。在本研究中,我们调查了人类和LLM对污名特征的评分,以及提示风格和污名类型,是否对LLM输出中对污名化群体的偏见产生影响。我们使用SocialStigmaQA(一个包含37个关于污名化身份的社会场景的基准,例如决定是否推荐他们参加实习)来衡量三种广泛使用的LLM(Granite 3.0-8B、Llama-3.1-8B、Mistral-7B)对93个污名化群体的偏见。我们发现,人类评定为高度危险的污名(例如,成为帮派成员或感染艾滋病毒)在SocialStigmaQA提示中产生最多的偏见输出(来自所有模型的60%),而社会人口统计学污名(例如,亚裔美国人或老年)产生的偏见输出最少(11%)。我们测试了使用guardrail模型(旨在识别有害输入的模型)是否可以减少偏见输出的数量,使用了每个LLM各自的guardrail模型(Granite Guardian 3.0、Llama Guard 3.0、Mistral Moderation API)。我们发现偏见分别显著减少了10.4%、1.4%和7.8%。然而,我们表明,对偏见有显著影响的特征在缓解后仍然没有改变,并且guardrail模型经常无法识别提示中偏见的意图。这项工作对在涉及污名化群体的场景中使用LLM具有重要意义,我们建议未来的工作应致力于改进用于缓解偏见的guardrail模型。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理涉及污名化群体时表现出的社会偏见问题。现有方法主要关注受保护群体的偏见,而忽略了对非保护性污名化群体的偏见研究。此外,现有方法缺乏对污名社会特征与LLM偏见之间关联的深入理解,导致难以有效缓解偏见。

核心思路:论文的核心思路是分析污名的社会特征(如美学、可隐藏性、危险性等)与LLM偏见输出之间的关系,从而揭示影响偏见的关键因素。通过量化这些特征,并将其与LLM的偏见程度进行关联分析,可以更好地理解偏见的产生机制,并为改进偏见缓解策略提供依据。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择93个污名化群体作为研究对象;2) 使用SocialStigmaQA基准测试LLM的偏见程度;3) 人工和LLM对污名的六个社会特征进行评分;4) 分析污名特征、提示风格和污名类型对LLM偏见输出的影响;5) 使用guardrail模型缓解偏见,并评估缓解效果。

关键创新:论文的关键创新在于:1) 首次系统性地研究了LLM对非保护性污名化群体的偏见;2) 揭示了污名的社会特征与LLM偏见之间的关联;3) 评估了现有guardrail模型在缓解此类偏见方面的局限性。与现有方法相比,该研究更全面地考虑了偏见的来源,并为改进偏见缓解策略提供了新的视角。

关键设计:论文的关键设计包括:1) 使用SocialStigmaQA基准来量化LLM的偏见程度,该基准包含37个关于污名化身份的社会场景;2) 采用人工和LLM相结合的方式对污名的六个社会特征进行评分,以提高评分的准确性和效率;3) 使用各自LLM的guardrail模型(Granite Guardian 3.0、Llama Guard 3.0、Mistral Moderation API)来评估偏见缓解效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM对高度危险的污名(如帮派成员、HIV感染者)表现出更强的偏见,而对社会人口统计学污名(如亚裔美国人、老年人)的偏见较弱。使用guardrail模型后,偏见虽有所减少(最高减少10.4%),但对偏见有显著影响的污名特征依然存在,且guardrail模型难以识别提示中的偏见意图。

🎯 应用场景

该研究成果可应用于开发更公平、更包容的LLM系统,尤其是在涉及社会敏感话题的应用场景中,如招聘、医疗诊断、法律咨询等。通过理解污名特征与偏见之间的关系,可以设计更有效的偏见缓解策略,减少LLM对弱势群体的歧视,促进社会公平。

📄 摘要(原文)

Large language models (LLMs) have been shown to exhibit social bias, however, bias towards non-protected stigmatized identities remain understudied. Furthermore, what social features of stigmas are associated with bias in LLM outputs is unknown. From psychology literature, it has been shown that stigmas contain six shared social features: aesthetics, concealability, course, disruptiveness, origin, and peril. In this study, we investigate if human and LLM ratings of the features of stigmas, along with prompt style and type of stigma, have effect on bias towards stigmatized groups in LLM outputs. We measure bias against 93 stigmatized groups across three widely used LLMs (Granite 3.0-8B, Llama-3.1-8B, Mistral-7B) using SocialStigmaQA, a benchmark that includes 37 social scenarios about stigmatized identities; for example deciding wether to recommend them for an internship. We find that stigmas rated by humans to be highly perilous (e.g., being a gang member or having HIV) have the most biased outputs from SocialStigmaQA prompts (60% of outputs from all models) while sociodemographic stigmas (e.g. Asian-American or old age) have the least amount of biased outputs (11%). We test if the amount of biased outputs could be decreased by using guardrail models, models meant to identify harmful input, using each LLM's respective guardrail model (Granite Guardian 3.0, Llama Guard 3.0, Mistral Moderation API). We find that bias decreases significantly by 10.4%, 1.4%, and 7.8%, respectively. However, we show that features with significant effect on bias remain unchanged post-mitigation and that guardrail models often fail to recognize the intent of bias in prompts. This work has implications for using LLMs in scenarios involving stigmatized groups and we suggest future work towards improving guardrail models for bias mitigation.