Navigating the Rabbit Hole: Emergent Biases in LLM-Generated Attack Narratives Targeting Mental Health Groups
作者: Rijul Magu, Arka Dutta, Sean Kim, Ashiqur R. KhudaBukhsh, Munmun De Choudhury
分类: cs.CL, cs.AI, cs.CY, cs.LG, cs.SI
发布日期: 2025-04-08 (更新: 2025-04-11)
💡 一句话要点
揭示LLM针对精神健康群体的攻击性叙事中涌现的偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏见分析 攻击性叙事 精神健康 污名化 网络分析 自然语言处理
📋 核心要点
- 现有研究较少关注LLM对精神健康等弱势群体的无端攻击行为,缺乏系统性的评估。
- 论文构建基于网络的框架,分析LLM生成攻击性叙事中偏见的传播路径和污名化程度。
- 实验结果表明,LLM生成的攻击性叙事中,精神健康群体占据中心位置,污名化标签显著增加。
📝 摘要(中文)
大型语言模型(LLM)已被证明对某些群体存在不平衡的偏见。然而,LLM对高危人群进行无端定向攻击的研究仍然不足。本文提出了三个新的贡献:(1) 明确评估LLM生成的针对高度脆弱的精神健康群体的攻击;(2) 基于网络的框架,用于研究相对偏见的传播;(3) 评估这些攻击中出现的相对污名化程度。我们对最近发布的大规模偏见审计数据集的分析表明,精神健康实体在攻击叙事网络中占据中心位置,表现为显著更高的平均接近中心性(p值=4.06e-10)和密集聚类(基尼系数=0.7)。借鉴污名化理论的社会学基础,我们的污名化分析表明,与生成链中的初始目标相比,精神健康障碍相关目标的标签成分有所增加。总而言之,这些见解揭示了大型语言模型在加剧有害言论方面的结构性倾向,并强调了采取适当缓解方法的必要性。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在生成攻击性叙事时,是否以及如何在针对精神健康群体的攻击中表现出偏见。现有方法缺乏对LLM针对弱势群体(如精神健康群体)的无端攻击行为的系统性评估,也缺乏对攻击性叙事中偏见传播路径的深入分析。
核心思路:论文的核心思路是通过构建攻击叙事网络,分析精神健康实体在网络中的位置和与其他实体的关系,从而揭示LLM在生成攻击性叙事时对精神健康群体的偏见。同时,借鉴社会学中的污名化理论,分析攻击性叙事中污名化标签的演变,评估LLM加剧污名化的程度。
技术框架:论文的技术框架主要包括以下几个阶段:1) 利用LLM生成针对不同目标的攻击性叙事;2) 构建攻击叙事网络,节点代表实体(如精神健康疾病、种族、性别等),边代表攻击性叙事中实体之间的关联;3) 分析网络结构,计算节点的中心性指标(如接近中心性)和网络的聚类系数,评估精神健康实体在网络中的重要性和聚集程度;4) 进行污名化分析,提取攻击性叙事中的污名化标签,分析标签的演变和传播。
关键创新:论文的关键创新在于:1) 首次明确评估LLM生成的针对精神健康群体的攻击性叙事;2) 提出了基于网络的框架,用于研究攻击性叙事中偏见的传播路径;3) 结合社会学理论,对攻击性叙事中的污名化现象进行了深入分析。
关键设计:论文的关键设计包括:1) 使用大规模偏见审计数据集,保证了研究的可靠性和泛化性;2) 选择接近中心性和基尼系数等指标,能够有效衡量节点在网络中的重要性和网络的聚集程度;3) 借鉴社会学中的污名化理论,为分析攻击性叙事中的污名化现象提供了理论基础。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LLM生成的攻击性叙事网络中,精神健康实体占据中心位置,具有显著更高的平均接近中心性(p值=4.06e-10)和密集聚类(基尼系数=0.7)。污名化分析表明,与初始目标相比,精神健康障碍相关目标的标签成分有所增加,表明LLM倾向于加剧对精神健康群体的污名化。
🎯 应用场景
该研究成果可应用于开发LLM偏见检测和缓解工具,帮助识别和消除LLM在生成文本时对弱势群体的歧视和偏见。此外,该研究还可以为社交媒体平台的内容审核提供参考,帮助识别和过滤针对精神健康群体的攻击性言论,从而营造更加健康的网络环境。
📄 摘要(原文)
Large Language Models (LLMs) have been shown to demonstrate imbalanced biases against certain groups. However, the study of unprovoked targeted attacks by LLMs towards at-risk populations remains underexplored. Our paper presents three novel contributions: (1) the explicit evaluation of LLM-generated attacks on highly vulnerable mental health groups; (2) a network-based framework to study the propagation of relative biases; and (3) an assessment of the relative degree of stigmatization that emerges from these attacks. Our analysis of a recently released large-scale bias audit dataset reveals that mental health entities occupy central positions within attack narrative networks, as revealed by a significantly higher mean centrality of closeness (p-value = 4.06e-10) and dense clustering (Gini coefficient = 0.7). Drawing from sociological foundations of stigmatization theory, our stigmatization analysis indicates increased labeling components for mental health disorder-related targets relative to initial targets in generation chains. Taken together, these insights shed light on the structural predilections of large language models to heighten harmful discourse and highlight the need for suitable approaches for mitigation.