Only a Little to the Left: A Theory-grounded Measure of Political Bias in Large Language Models
作者: Mats Faulborn, Indira Sen, Max Pellert, Andreas Spitz, David Garcia
分类: cs.CY, cs.CL
发布日期: 2025-03-20 (更新: 2025-07-20)
备注: Preprint of ACL 2025 paper
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于政治科学理论的LLM政治倾向评估方法,克服传统方法局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 政治偏见 大型语言模型 评估方法 政治科学 prompt工程
📋 核心要点
- 现有政治倾向评估方法(如PCT)在prompt设计和科学有效性上存在不足,导致评估结果不稳定且可能存在偏差。
- 论文提出一种基于政治科学理论的政治偏见评估方法,系统性地设计prompt并考虑prompt敏感性,以提高评估的准确性和可靠性。
- 实验评估了11个LLM,发现PCT会夸大某些模型的偏见,且指令调优模型通常表现出更强的左倾倾向。
📝 摘要(中文)
本文研究了大型语言模型(LLM)中的政治偏见,这些模型被广泛应用于模拟代理、信息搜索和内容分析等领域。现有研究通常使用基于调查的评估套件(如政治罗盘测试PCT)来评估政治偏见,但存在prompt技术不一致、依赖约束答案设置以及PCT本身科学有效性不足等问题。本文提出了一种基于政治科学理论的政治偏见评估方法,该方法遵循调查设计原则,测试了各种输入prompt,并考虑了prompt敏感性。作者使用该方法评估了11个不同的开源和商业模型,区分了指令调优和非指令调优模型,并自动分类了它们的政治立场,共计88,110个回复。通过分析这些数据,作者计算了不同prompt变体下的政治偏见概况,发现PCT夸大了某些模型(如GPT3.5)的偏见,政治偏见测量通常不稳定,但指令调优模型通常更偏左。
🔬 方法详解
问题定义:现有研究评估大型语言模型(LLM)的政治倾向时,主要依赖于基于调查的评估套件,例如政治罗盘测试(PCT)。这些方法存在以下痛点:一是prompt设计缺乏统一标准,导致评估结果因prompt而异;二是通常采用约束答案设置,限制了模型的表达自由;三是PCT本身的科学有效性受到质疑,可能无法准确反映模型的真实政治倾向。
核心思路:本文的核心思路是构建一个基于政治科学理论的、更严谨的政治倾向评估框架。该框架借鉴了调查设计原则,旨在通过系统性的prompt设计和敏感性分析,更准确地评估LLM的政治倾向。通过考虑不同的政治维度和意识形态,并设计相应的prompt,可以更全面地了解模型的政治立场。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 理论基础:基于政治科学理论,确定政治倾向评估的关键维度和指标。2) Prompt设计:设计一系列prompt,涵盖不同的政治议题和立场,并考虑prompt的敏感性。3) 模型评估:使用设计的prompt对不同的LLM进行评估,收集模型的回复。4) 数据分析:对模型的回复进行自动分类和分析,计算政治偏见概况。5) 结果验证:通过对比不同prompt变体和模型类型,验证评估结果的稳定性和可靠性。
关键创新:本文最重要的技术创新点在于其评估框架的理论基础和系统性。与以往研究相比,该框架不再依赖于未经充分验证的调查工具,而是基于政治科学理论构建评估指标,并系统性地设计prompt,从而提高了评估的准确性和可靠性。此外,该研究还考虑了prompt敏感性,避免了因prompt设计不当而导致的评估偏差。
关键设计:在prompt设计方面,研究人员可能采用了以下关键设计:1) 多样性:设计涵盖不同政治议题和立场的prompt,以全面评估模型的政治倾向。2) 平衡性:确保不同政治立场的prompt数量和难度相当,避免引入偏差。3) 敏感性分析:通过改变prompt的措辞和语境,评估模型回复的稳定性,并识别敏感prompt。在数据分析方面,研究人员可能采用了自然语言处理技术,例如情感分析和文本分类,来自动识别模型回复中的政治立场。
🖼️ 关键图片
📊 实验亮点
实验结果表明,传统的政治罗盘测试(PCT)可能会夸大某些模型的政治偏见,例如GPT3.5。此外,研究发现指令调优模型通常表现出更强的左倾倾向。通过分析不同prompt变体下的政治偏见概况,研究人员能够更全面地了解模型的政治立场。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的政治中立性,降低其在信息传播、决策支持等应用中产生偏见的风险。此外,该方法也可用于评估其他类型AI系统的价值观倾向,促进AI技术的负责任发展和应用。
📄 摘要(原文)
Prompt-based language models like GPT4 and LLaMa have been used for a wide variety of use cases such as simulating agents, searching for information, or for content analysis. For all of these applications and others, political biases in these models can affect their performance. Several researchers have attempted to study political bias in language models using evaluation suites based on surveys, such as the Political Compass Test (PCT), often finding a particular leaning favored by these models. However, there is some variation in the exact prompting techniques, leading to diverging findings, and most research relies on constrained-answer settings to extract model responses. Moreover, the Political Compass Test is not a scientifically valid survey instrument. In this work, we contribute a political bias measured informed by political science theory, building on survey design principles to test a wide variety of input prompts, while taking into account prompt sensitivity. We then prompt 11 different open and commercial models, differentiating between instruction-tuned and non-instruction-tuned models, and automatically classify their political stances from 88,110 responses. Leveraging this dataset, we compute political bias profiles across different prompt variations and find that while PCT exaggerates bias in certain models like GPT3.5, measures of political bias are often unstable, but generally more left-leaning for instruction-tuned models. Code and data are available on: https://github.com/MaFa211/theory_grounded_pol_bias