What Is The Political Content in LLMs' Pre- and Post-Training Data?

📄 arXiv: 2509.22367 📥 PDF

作者: Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-04-06


💡 一句话要点

分析LLM训练数据中的政治倾向,揭示数据偏差对模型政治立场的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治偏见 训练数据 数据偏差 立场检测

📋 核心要点

  1. 现有方法难以解释LLM中政治偏见的来源,阻碍了有效缓解策略的设计。
  2. 本文通过分析LLM的预训练和后训练数据,探究数据中的政治倾向与模型政治立场之间的关系。
  3. 研究发现训练数据系统性地偏向左倾内容,且训练数据中的政治立场与模型行为高度相关。

📝 摘要(中文)

大型语言模型(LLM)生成带有政治偏见的文本已是众所周知的事实。然而,这些偏见是如何产生的仍然不清楚,这使得设计有效的缓解策略变得困难。本文假设这些偏见根植于训练数据的构成。从以数据为中心的角度出发,本文提出了关于(1)数据中存在的政治倾向,(2)数据不平衡,(3)跨数据集相似性,以及(4)数据-模型对齐的研究问题。然后,本文研究了接触政治内容与模型在政策问题上的立场之间的关系。通过结合大规模抽样、政治倾向分类和立场检测,分析了开源LLM的预训练和后训练数据集的政治内容。研究发现,训练数据系统性地偏向左倾内容,预训练语料库包含的政治参与材料明显多于后训练数据。此外,观察到训练数据中的政治立场与模型行为之间存在很强的相关性,并表明预训练数据集尽管具有不同的管理策略,但表现出相似的政治分布。此外,发现政治偏见已经存在于基础模型中,并在后训练阶段持续存在。这些发现突出了数据构成在塑造模型行为中的核心作用,并激发了对更高数据透明度的需求。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中政治偏见来源不明的问题。现有方法无法有效解释和缓解LLM中的政治偏见,因为缺乏对训练数据政治倾向的深入理解。现有研究未能充分揭示预训练和后训练数据在塑造模型政治立场方面的作用。

核心思路:论文的核心思路是从数据角度出发,分析LLM的预训练和后训练数据,量化数据中的政治倾向,并研究其与模型政治立场之间的相关性。通过大规模抽样、政治倾向分类和立场检测等方法,揭示数据偏差对模型行为的影响。

技术框架:论文的技术框架主要包含以下几个阶段:1) 数据收集:收集开源LLM的预训练和后训练数据集。2) 政治倾向分类:使用政治倾向分类器对数据进行分类,识别其中的政治内容和倾向。3) 立场检测:检测数据和模型在特定政策问题上的立场。4) 相关性分析:分析训练数据中的政治立场与模型行为之间的相关性。5) 跨数据集相似性分析:比较不同预训练数据集的政治分布。

关键创新:论文的关键创新在于:1) 系统性地分析了LLM预训练和后训练数据中的政治倾向。2) 揭示了训练数据中的政治立场与模型行为之间的强相关性。3) 发现政治偏见在基础模型中已经存在,并在后训练阶段持续存在。4) 提出了以数据为中心的视角来理解和缓解LLM中的政治偏见。

关键设计:论文的关键设计包括:1) 使用大规模抽样方法来分析训练数据。2) 使用现有的政治倾向分类器和立场检测模型,并根据需要进行微调。3) 使用相关性分析方法来量化训练数据中的政治立场与模型行为之间的关系。4) 比较不同预训练数据集的政治分布,以评估数据管理策略的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,LLM的训练数据系统性地偏向左倾内容,预训练语料库包含的政治参与材料明显多于后训练数据。训练数据中的政治立场与模型行为之间存在很强的相关性。政治偏见在基础模型中已经存在,并在后训练阶段持续存在。这些发现强调了数据构成在塑造模型行为中的核心作用。

🎯 应用场景

该研究成果可应用于提升LLM的公平性和可信度,例如通过调整训练数据分布来减少政治偏见。此外,该研究也为开发更透明、可控的LLM提供了理论基础,有助于构建更负责任的人工智能系统。该研究结果可以指导数据集的构建和筛选,从而减少LLM中的政治偏见。

📄 摘要(原文)

Large language models (LLMs) are known to generate politically biased text. Yet, it remains unclear how such biases arise, making it difficult to design effective mitigation strategies. We hypothesize that these biases are rooted in the composition of training data. Taking a data-centric perspective, we formulate research questions on (1) political leaning present in data, (2) data imbalance, (3) cross-dataset similarity, and (4) data-model alignment. We then examine how exposure to political content relates to models' stances on policy issues. We analyze the political content of pre- and post-training datasets of open-source LLMs, combining large-scale sampling, political-leaning classification, and stance detection. We find that training data is systematically skewed toward left-leaning content, with pre-training corpora containing substantially more politically engaged material than post-training data. We further observe a strong correlation between political stances in training data and model behavior, and show that pre-training datasets exhibit similar political distributions despite different curation strategies. In addition, we find that political biases are already present in base models and persist across post-training stages. These findings highlight the central role of data composition in shaping model behavior and motivate the need for greater data transparency.