Bias Amplification: Large Language Models as Increasingly Biased Media

📄 arXiv: 2410.15234v3 📥 PDF

作者: Ze Wang, Zekun Wu, Jeremy Zhang, Xin Guan, Navya Jain, Skylar Lu, Saloni Gupta, Adriano Koshiyama

分类: cs.AI

发布日期: 2024-10-19 (更新: 2025-05-20)

备注: Submitted to ACL ARR May 2025


💡 一句话要点

提出政治偏见放大基准,揭示LLM迭代训练中偏见加剧现象及神经机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏见放大 模型坍塌 政治偏见 神经机制分析

📋 核心要点

  1. 现有研究对LLM迭代训练导致的偏见放大现象关注不足,尤其是在政治偏见方面。
  2. 论文提出一个新基准,通过句子补全任务评估LLM在迭代训练中政治偏见的放大程度。
  3. 实验表明,即使控制模型坍塌,偏见放大依然存在,且与模型坍塌由不同的神经元驱动。

📝 摘要(中文)

模型坍塌是由于在合成数据上迭代训练导致性能下降的现象,已被广泛研究。然而,尽管大型语言模型(LLM)在塑造在线讨论方面的影响力日益增强,但模型坍塌对偏见放大(LLM中预先存在的社会偏见的逐步加剧)的影响仍未得到充分探索。本文提出了一个开放的、生成式的、长上下文的基准,专门用于衡量LLM中的政治偏见放大,利用来自美国政治新闻综合数据集的句子补全任务。使用GPT-2的实证研究表明,在迭代合成训练周期中,政治偏见持续且显著地加剧(例如,右倾放大)。我们评估了三种缓解策略:过拟合、保持和累积,并证明偏见放大独立于模型坍塌而持续存在,即使后者得到有效控制。此外,我们提出了一种机制分析方法,通过回归和统计测试来识别推理过程中与特定现象相关的神经元。该分析揭示了驱动偏见放大和模型坍塌的神经元群体在很大程度上是不同的,突出了根本不同的潜在机制。最后,我们用理论直觉补充了我们的实证结果,解释了这些现象的独立起源,从而指导有针对性的偏见缓解策略。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在迭代训练过程中,由于使用自身生成的合成数据进行训练而导致的政治偏见放大问题。现有方法主要关注模型坍塌,而忽略了偏见放大这一重要现象,并且缺乏有效的评估和缓解手段。

核心思路:论文的核心思路是构建一个专门用于评估政治偏见放大的基准,并通过实证研究揭示偏见放大与模型坍塌之间的关系。同时,通过神经机制分析,探究偏见放大的内在原因,从而为有针对性的偏见缓解策略提供理论指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建政治偏见放大基准:该基准基于美国政治新闻数据集,通过句子补全任务来评估LLM的政治倾向。2) 迭代训练实验:使用GPT-2在合成数据上进行迭代训练,模拟LLM的自我学习过程。3) 偏见放大评估:使用提出的基准评估LLM在不同训练阶段的政治偏见程度。4) 模型坍塌评估:评估模型在迭代训练过程中的性能下降情况。5) 神经机制分析:通过回归和统计测试,识别与偏见放大和模型坍塌相关的神经元。6) 偏见缓解策略评估:评估三种缓解策略(过拟合、保持和累积)对偏见放大的效果。

关键创新:论文的关键创新点在于:1) 提出了一个专门用于评估LLM政治偏见放大的基准。2) 揭示了偏见放大独立于模型坍塌而存在,并且由不同的神经元驱动。3) 提出了神经机制分析方法,为理解偏见放大的内在原因提供了新的视角。

关键设计:在基准构建方面,论文使用了来自美国政治新闻的句子,并将其转化为句子补全任务,以评估LLM的政治倾向。在神经机制分析方面,论文使用了回归和统计测试来识别与偏见放大和模型坍塌相关的神经元。具体而言,通过分析神经元的激活模式与模型输出之间的关系,来确定哪些神经元对偏见放大起关键作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-2在迭代训练中会持续放大政治偏见(例如,右倾放大)。即使采用过拟合、保持和累积等缓解策略来控制模型坍塌,偏见放大现象依然存在。神经机制分析揭示,偏见放大和模型坍塌由不同的神经元群体驱动,表明两者具有不同的内在机制。

🎯 应用场景

该研究成果可应用于提升大型语言模型的公平性和可靠性,减少其在新闻生成、舆情分析等领域的偏见。通过理解偏见放大的内在机制,可以开发更有效的偏见缓解策略,从而构建更加公正和可信的人工智能系统。此外,该研究也为其他类型偏见的分析和缓解提供了借鉴。

📄 摘要(原文)

Model collapse, a phenomenon characterized by performance degradation due to iterative training on synthetic data, has been widely studied. However, its implications for bias amplification, the progressive intensification of pre-existing societal biases in Large Language Models (LLMs), remain significantly underexplored, despite the growing influence of LLMs in shaping online discourse. In this paper, we introduce a open, generational, and long-context benchmark specifically designed to measure political bias amplification in LLMs, leveraging sentence continuation tasks derived from a comprehensive dataset of U.S. political news. Our empirical study using GPT-2 reveals consistent and substantial political bias intensification (e.g., right-leaning amplification) over iterative synthetic training cycles. We evaluate three mitigation strategies, Overfitting, Preservation, and Accumulation, and demonstrate that bias amplification persists independently of model collapse, even when the latter is effectively controlled. Furthermore, we propose a mechanistic analysis approach that identifies neurons correlated with specific phenomena during inference through regression and statistical tests. This analysis uncovers largely distinct neuron populations driving bias amplification and model collapse, underscoring fundamentally different underlying mechanisms. Finally, we supplement our empirical findings with theoretical intuition that explains the separate origins of these phenomena, guiding targeted strategies for bias mitigation.