Probing Association Biases in LLM Moderation Over-Sensitivity

📄 arXiv: 2505.23914v1 📥 PDF

作者: Yuxin Wang, Botao Yu, Ivory Yang, Saeed Hassanpour, Soroush Vosoughi

分类: cs.CL, cs.AI

发布日期: 2025-05-29

备注: Under review


💡 一句话要点

揭示LLM内容审核过度敏感中的主题联想偏见,提出主题联想分析方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 内容审核 过度敏感 主题联想偏见 主题联想分析

📋 核心要点

  1. 现有LLM内容审核过度敏感,常将良性评论误判为有害,仅关注攻击性词语无法解释。
  2. 论文提出主题联想分析方法,通过分析LLM对良性评论的场景想象,量化其主题与毒性的关联。
  3. 实验发现,更先进的LLM模型(如GPT-4 Turbo)虽然误报率低,但主题刻板印象更强。

📝 摘要(中文)

大型语言模型(LLM)被广泛应用于内容审核,但常常错误地将良性评论归类为有害内容,导致过度敏感。先前的研究主要将此问题归因于攻击性词语的存在,而本文揭示了一种超越词语层面的潜在原因:LLM在其隐式联想中表现出系统性的主题偏见。受认知心理学中内隐联想测验的启发,我们引入了主题联想分析(Topic Association Analysis),这是一种语义层面的方法,用于量化LLM如何将某些主题与毒性联系起来。通过提示LLM为错误分类的良性评论生成自由形式的场景想象,并分析其主题放大水平,我们发现更先进的模型(例如GPT-4 Turbo)尽管总体误报率较低,但表现出更强的主题刻板印象。这些偏见表明,LLM不仅仅是对显式的攻击性语言做出反应,而是依赖于学习到的主题联想来塑造其审核决策。我们的发现强调了需要在基于关键词过滤之外进行改进,并深入了解驱动LLM过度敏感的潜在机制。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在内容审核中存在的过度敏感问题,即错误地将良性评论判定为有害内容。现有方法主要关注评论中是否存在攻击性词语,但无法解释为何一些不包含明显攻击性词语的评论仍然被错误分类。这种现象表明,LLM可能存在更深层次的偏见,而不仅仅是对关键词的简单反应。

核心思路:论文的核心思路是,LLM在内容审核中不仅依赖于显式的语言特征,还受到其学习到的主题联想的影响。LLM可能将某些主题与毒性联系起来,从而导致对涉及这些主题的良性评论产生偏见。为了揭示这种主题联想偏见,论文借鉴了认知心理学中的内隐联想测验(IAT)的思想。

技术框架:论文提出了主题联想分析(Topic Association Analysis)方法,其主要流程如下:1) 选择一批被LLM错误分类为有害的良性评论;2) 提示LLM为每条评论生成自由形式的场景想象;3) 分析生成的场景想象,提取其中的主题信息;4) 量化每个主题的放大水平,即该主题在场景想象中出现的频率与在原始评论中出现的频率之比;5) 通过比较不同主题的放大水平,评估LLM对不同主题的联想偏见。

关键创新:论文的关键创新在于提出了主题联想分析方法,这是一种语义层面的方法,用于量化LLM如何将某些主题与毒性联系起来。与以往主要关注词语层面的研究不同,该方法能够揭示LLM在内容审核中存在的更深层次的主题偏见。此外,该方法借鉴了认知心理学的内隐联想测验的思想,为研究LLM的偏见提供了一种新的视角。

关键设计:在提示LLM生成场景想象时,论文采用了特定的prompt模板,以确保生成的场景想象能够反映LLM对评论内容的理解和联想。在分析场景想象时,论文使用了主题模型(如LDA)来提取其中的主题信息。在量化主题放大水平时,论文采用了特定的公式,以确保能够准确地反映主题在场景想象中的重要性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,更先进的LLM模型(如GPT-4 Turbo)尽管总体误报率较低,但表现出更强的主题刻板印象。这意味着,随着模型能力的提升,其潜在的偏见也可能变得更加隐蔽和难以察觉。例如,GPT-4 Turbo在某些主题上的放大水平显著高于其他模型,表明其对这些主题存在更强的联想偏见。

🎯 应用场景

该研究成果可应用于改进LLM的内容审核系统,减少误报率,提高审核的公平性和准确性。通过识别和纠正LLM的主题联想偏见,可以避免对特定群体或话题的歧视性审核。此外,该方法还可以用于评估和比较不同LLM的偏见程度,为选择合适的审核模型提供依据。未来,该研究可以扩展到其他类型的AI系统,以提高其公平性和可靠性。

📄 摘要(原文)

Large Language Models are widely used for content moderation but often misclassify benign comments as toxic, leading to over-sensitivity. While previous research attributes this issue primarily to the presence of offensive terms, we reveal a potential cause beyond token level: LLMs exhibit systematic topic biases in their implicit associations. Inspired by cognitive psychology's implicit association tests, we introduce Topic Association Analysis, a semantic-level approach to quantify how LLMs associate certain topics with toxicity. By prompting LLMs to generate free-form scenario imagination for misclassified benign comments and analyzing their topic amplification levels, we find that more advanced models (e.g., GPT-4 Turbo) demonstrate stronger topic stereotype despite lower overall false positive rates. These biases suggest that LLMs do not merely react to explicit, offensive language but rely on learned topic associations, shaping their moderation decisions. Our findings highlight the need for refinement beyond keyword-based filtering, providing insights into the underlying mechanisms driving LLM over-sensitivity.