What Is The Political Content in LLMs' Pre- and Post-Training Data?

📄 arXiv: 2509.22367v1 📥 PDF

作者: Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-09-26

备注: 9 pages, under review


💡 一句话要点

分析LLM训练数据中的政治倾向,揭示模型偏见与数据内容的相关性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治偏见 训练数据分析 数据标注 内容分析

📋 核心要点

  1. 大型语言模型存在政治偏见,但其根源在于训练数据中的政治内容分布,这方面的研究相对不足。
  2. 该研究通过分析OLMO2模型的预训练和后训练数据,标注政治倾向,并分析其来源和内容,揭示数据偏见。
  3. 研究发现训练数据中左倾内容占主导,且与模型在政策问题上的政治偏见高度相关,强调数据管理的重要性。

📝 摘要(中文)

大型语言模型(LLM)生成带有政治偏见的文本已是共识,但这种偏见如何产生尚不清楚。分析训练数据是解决此问题的关键一步,然而当前LLM研究对训练数据的政治内容探索不足。本文针对OLMO2(最大的完全开源模型,及其完整数据集)的预训练和后训练语料库进行了分析。我们从这些语料库中抽取大量随机样本,自动标注文档的政治倾向,并分析其来源领域和内容。然后,我们评估训练数据中的政治内容如何与模型在特定政策问题上的立场相关联。分析表明,左倾文档在数据集中占主导地位,且预训练语料库包含比后训练数据明显更多的政治参与内容。我们还发现,左倾和右倾文档通过不同的价值观和合法性来源来构建相似的主题。最后,训练数据中的主要立场与模型在评估政策问题时的政治偏见密切相关。这些发现强调了将政治内容分析整合到未来数据管理流程以及深入记录过滤策略以提高透明度的必要性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中政治偏见来源的问题。现有方法缺乏对LLM训练数据(尤其是预训练和后训练数据)中政治内容的深入分析,无法解释模型偏见与训练数据之间的关系。因此,该研究致力于量化和分析训练数据中的政治倾向,并将其与模型的政治立场联系起来。

核心思路:论文的核心思路是通过对LLM的训练数据进行政治倾向分析,揭示模型偏见与数据内容之间的相关性。具体来说,通过自动标注文档的政治倾向,分析其来源领域和内容,并评估训练数据中的政治内容如何影响模型在特定政策问题上的立场。这种方法旨在从数据层面理解模型偏见的产生机制。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:从OLMO2模型的预训练和后训练语料库中抽取大量随机样本。2) 政治倾向标注:使用自动标注方法对文档进行政治倾向标注,区分左倾、右倾和中立内容。3) 内容分析:分析文档的来源领域和内容,识别不同政治倾向文档的特征。4) 关联性评估:评估训练数据中的政治内容与模型在特定政策问题上的立场之间的相关性。

关键创新:该研究的关键创新在于首次对完全开源的LLM(OLMO2)的预训练和后训练数据进行了全面的政治内容分析。通过量化训练数据中的政治倾向,并将其与模型的政治立场联系起来,为理解LLM偏见的产生机制提供了新的视角。此外,该研究还揭示了不同政治倾向文档在内容和来源上的差异。

关键设计:在政治倾向标注方面,论文可能采用了基于词典、规则或机器学习的自动标注方法。在关联性评估方面,可能使用了相关性分析、回归分析或其他统计方法来量化训练数据中的政治内容与模型政治立场之间的关系。具体的参数设置、损失函数和网络结构等技术细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,OLMO2模型的训练数据中左倾文档占主导地位,且预训练数据比后训练数据包含更多政治内容。更重要的是,训练数据中的政治倾向与模型在政策问题上的政治偏见存在显著相关性,表明数据偏见是模型偏见的重要来源。

🎯 应用场景

该研究成果可应用于LLM的开发和部署过程中,帮助开发者更好地理解和控制模型的政治倾向。通过分析训练数据中的政治内容,可以有针对性地进行数据清洗和过滤,从而降低模型产生政治偏见的风险。此外,该研究还可以为LLM的透明度和可解释性研究提供参考。

📄 摘要(原文)

Large language models (LLMs) are known to generate politically biased text, yet how such biases arise remains unclear. A crucial step toward answering this question is the analysis of training data, whose political content remains largely underexplored in current LLM research. To address this gap, we present in this paper an analysis of the pre- and post-training corpora of OLMO2, the largest fully open-source model released together with its complete dataset. From these corpora, we draw large random samples, automatically annotate documents for political orientation, and analyze their source domains and content. We then assess how political content in the training data correlates with models' stance on specific policy issues. Our analysis shows that left-leaning documents predominate across datasets, with pre-training corpora containing significantly more politically engaged content than post-training data. We also find that left- and right-leaning documents frame similar topics through distinct values and sources of legitimacy. Finally, the predominant stance in the training data strongly correlates with models' political biases when evaluated on policy issues. These findings underscore the need to integrate political content analysis into future data curation pipelines as well as in-depth documentation of filtering strategies for transparency.