What Is The Political Content in LLMs' Pre- and Post-Training Data?

作者: Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-09-26

备注: 9 pages, under review

💡 一句话要点

分析LLM训练数据中的政治倾向，揭示模型偏见与数据偏差的相关性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治偏见 训练数据分析 数据偏差 开源模型

📋 核心要点

现有研究对LLM训练数据的政治内容分析不足，难以解释模型政治偏见的来源。
通过分析OLMO2的预训练和后训练语料库，评估政治倾向与模型立场的相关性。
实验表明，训练数据中的政治立场与模型在政策问题上的偏见存在强相关性。

📝 摘要（中文）

大型语言模型（LLM）生成带有政治偏见的文本已是众所周知的事实，但这种偏见是如何产生的仍然不清楚。分析训练数据是解决此问题的关键一步，然而当前LLM研究对训练数据的政治内容探索不足。为了弥补这一差距，本文分析了OLMO2的预训练和后训练语料库，OLMO2是最大的完全开源模型，并发布了完整的数据集。从这些语料库中，我们抽取了大量的随机样本，自动标注文档的政治倾向，并分析其来源领域和内容。然后，我们评估了训练数据中的政治内容与模型在特定政策问题上的立场之间的相关性。分析表明，左倾文档在数据集中占主导地位，并且预训练语料库包含比后训练数据明显更多的政治参与内容。我们还发现，左倾和右倾文档通过不同的价值观和合法性来源来构建相似的主题。最后，训练数据中的主要立场与模型在评估政策问题时的政治偏见密切相关。这些发现强调了将政治内容分析整合到未来的数据管理流程中，以及对过滤策略进行深入记录以提高透明度的必要性。

🔬 方法详解

问题定义：该论文旨在解决大型语言模型（LLM）中政治偏见来源不明确的问题。现有的研究对LLM训练数据的政治内容分析不足，无法解释模型产生政治偏见的原因。因此，需要深入分析训练数据，特别是预训练和后训练数据，以了解其中的政治倾向，并探究其与模型偏见之间的关系。

核心思路：论文的核心思路是通过分析LLM的训练数据（OLMO2的预训练和后训练语料库）中的政治内容，来揭示模型政治偏见的来源。具体来说，通过对训练数据进行抽样、自动标注政治倾向、分析来源领域和内容，以及评估政治内容与模型在特定政策问题上的立场之间的相关性，从而理解训练数据中的政治倾向如何影响模型的输出。

技术框架：该研究的技术框架主要包括以下几个阶段： 1. 数据收集：收集OLMO2的预训练和后训练语料库。 2. 数据抽样：从语料库中抽取大量的随机样本。 3. 政治倾向标注：使用自动化的方法对抽样文档进行政治倾向标注（左倾、右倾等）。 4. 内容分析：分析文档的来源领域和内容，识别不同政治倾向的文档在主题、价值观和合法性来源上的差异。 5. 相关性评估：评估训练数据中的政治内容与模型在特定政策问题上的立场之间的相关性。 6. 结果分析与总结：分析实验结果，总结训练数据中的政治倾向与模型偏见之间的关系，并提出改进建议。

关键创新：该论文的关键创新在于： 1. 全面分析开源LLM的训练数据：首次对完全开源的LLM（OLMO2）的预训练和后训练语料库进行了全面的政治内容分析。 2. 揭示政治倾向与模型偏见的相关性：通过实验证明，训练数据中的政治倾向与模型在政策问题上的偏见存在强相关性。 3. 强调数据管理的重要性：强调了在LLM的训练过程中，对数据进行政治内容分析和过滤的重要性，以减少模型偏见。

关键设计：论文的关键设计包括： 1. 自动政治倾向标注方法：使用了自动化的方法来标注文档的政治倾向，具体方法未知，但需要保证标注的准确性和效率。 2. 政策问题评估方法：设计了评估模型在特定政策问题上的立场的方法，具体方法未知，但需要保证评估的客观性和可靠性。 3. 相关性分析方法：使用了统计方法来评估训练数据中的政治内容与模型在政策问题上的立场之间的相关性，具体方法未知，但需要保证相关性分析的准确性和有效性。

📊 实验亮点

研究发现，OLMO2的训练数据中左倾文档占主导地位，且预训练数据比后训练数据包含更多政治内容。更重要的是，训练数据中的政治立场与模型在政策问题上的偏见存在显著相关性，这表明数据偏差是导致模型偏见的重要原因。该研究结果为后续研究提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于改进LLM的训练流程，通过分析和过滤训练数据中的政治偏见，减少模型输出的政治倾向性。这有助于提高LLM在信息检索、内容生成等领域的公平性和客观性，并为构建更值得信赖的人工智能系统奠定基础。此外，该研究也为其他LLM的训练数据分析提供了参考。

📄 摘要（原文）

Large language models (LLMs) are known to generate politically biased text, yet how such biases arise remains unclear. A crucial step toward answering this question is the analysis of training data, whose political content remains largely underexplored in current LLM research. To address this gap, we present in this paper an analysis of the pre- and post-training corpora of OLMO2, the largest fully open-source model released together with its complete dataset. From these corpora, we draw large random samples, automatically annotate documents for political orientation, and analyze their source domains and content. We then assess how political content in the training data correlates with models' stance on specific policy issues. Our analysis shows that left-leaning documents predominate across datasets, with pre-training corpora containing significantly more politically engaged content than post-training data. We also find that left- and right-leaning documents frame similar topics through distinct values and sources of legitimacy. Finally, the predominant stance in the training data strongly correlates with models' political biases when evaluated on policy issues. These findings underscore the need to integrate political content analysis into future data curation pipelines as well as in-depth documentation of filtering strategies for transparency.

What Is The Political Content in LLMs' Pre- and Post-Training Data?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册