Better Aligned with Survey Respondents or Training Data? Unveiling Political Leanings of LLMs on U.S. Supreme Court Cases
作者: Shanshan Xu, T. Y. S. S Santosh, Yanai Elazar, Quirin Vogel, Barbara Plank, Matthias Grabmair
分类: cs.CL
发布日期: 2025-02-25 (更新: 2025-06-28)
💡 一句话要点
揭示LLM在美国最高法院案件中的政治倾向:训练数据还是民意调查?
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 政治倾向 偏见分析 训练数据 最高法院案件
📋 核心要点
- 大型语言模型可能受到训练数据中政治偏见的影响,导致输出结果带有倾向性。
- 论文提出一种方法,量化评估预训练语料库中嵌入的政治倾向。
- 研究发现LLM的政治倾向更接近训练数据,与人类调查意见的相关性较弱。
📝 摘要(中文)
最近的研究表明,大型语言模型(LLM)倾向于记忆训练数据中的模式和偏差,这引发了关于这些记忆内容如何影响模型行为的重要问题。其中一个关注点是LLM输出中出现的政治偏见。本文研究了LLM的政治倾向在多大程度上反映了其预训练语料库中记忆的模式。我们提出了一种定量评估大型预训练语料库中嵌入的政治倾向的方法。随后,我们调查了LLM的政治倾向与谁更一致,是它们的预训练语料库还是调查的人类意见。作为一个案例研究,我们专注于探测LLM在32个美国最高法院案件中的政治倾向,这些案件涉及堕胎和投票权等有争议的话题。我们的研究结果表明,LLM强烈反映了其训练数据中的政治倾向,并且与调查中表达的人类意见没有观察到强烈的相关性。这些结果强调了负责任地管理训练数据的重要性,以及审计LLM中的记忆以确保人机对齐的方法。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理政治敏感问题时,其输出结果所表现出的政治倾向性问题。现有方法缺乏对LLM政治倾向的量化评估,以及对LLM政治倾向来源的深入分析,无法确定LLM的倾向是来源于训练数据还是人类观点。
核心思路:论文的核心思路是通过量化LLM预训练语料库中的政治倾向,并将其与LLM在特定政治议题上的输出结果进行对比,从而确定LLM的政治倾向是否主要来源于训练数据。同时,将LLM的输出结果与人类调查意见进行对比,评估LLM与人类观点的对齐程度。
技术框架:整体框架包括以下几个主要阶段:1) 选择美国最高法院的案件作为研究对象,这些案件涉及具有争议的政治议题。2) 构建提示(prompts),用于引导LLM生成关于这些案件的观点。3) 使用LLM生成对案件的观点。4) 量化LLM的政治倾向,以及预训练语料库的政治倾向。5) 将LLM的政治倾向与预训练语料库的政治倾向和人类调查意见进行比较。
关键创新:论文的关键创新在于提出了一种量化评估预训练语料库政治倾向的方法。该方法能够有效地衡量语料库中不同政治立场的分布情况,从而为分析LLM的政治倾向提供了基础。此外,论文还通过对比LLM、预训练语料库和人类意见的政治倾向,揭示了LLM政治倾向的来源。
关键设计:论文的关键设计包括:1) 使用特定的提示工程(prompt engineering)技术,以确保LLM能够生成清晰且具有代表性的观点。2) 使用情感分析等自然语言处理技术,量化LLM和预训练语料库的政治倾向。3) 使用统计方法,比较LLM、预训练语料库和人类意见之间的政治倾向差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的政治倾向与训练数据中的政治倾向高度相关,而与人类调查意见的相关性较弱。这表明LLM更容易受到训练数据的影响,而非人类的真实观点。该研究量化了LLM在最高法院案件中的政治倾向,并揭示了其与训练数据之间的关系。
🎯 应用场景
该研究成果可应用于评估和缓解大型语言模型中的政治偏见,确保AI系统在处理敏感议题时更加公正和客观。此外,该方法还可用于审计训练数据,识别和纠正潜在的偏见来源,提升AI系统的可靠性和安全性。该研究对于构建负责任的人工智能系统具有重要意义。
📄 摘要(原文)
Recent works have shown that Large Language Models (LLMs) have a tendency to memorize patterns and biases present in their training data, raising important questions about how such memorized content influences model behavior. One such concern is the emergence of political bias in LLM outputs. In this paper, we investigate the extent to which LLMs' political leanings reflect memorized patterns from their pretraining corpora. We propose a method to quantitatively evaluate political leanings embedded in the large pretraining corpora. Subsequently we investigate to whom are the LLMs' political leanings more aligned with, their pretrainig corpora or the surveyed human opinions. As a case study, we focus on probing the political leanings of LLMs in 32 US Supreme Court cases, addressing contentious topics such as abortion and voting rights. Our findings reveal that LLMs strongly reflect the political leanings in their training data, and no strong correlation is observed with their alignment to human opinions as expressed in surveys. These results underscore the importance of responsible curation of training data, and the methodology for auditing the memorization in LLMs to ensure human-AI alignment.