PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay

📄 arXiv: 2603.23841v1 📥 PDF

作者: Rohan Khetan, Ashna Khetan

分类: cs.CL, cs.AI

发布日期: 2026-03-25

备注: 13 pages, 8 tables, 3 figures


💡 一句话要点

PoliticsBench:通过多轮角色扮演评估大型语言模型中的政治价值观

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治偏见 价值观评估 多轮角色扮演 心理测量学

📋 核心要点

  1. 现有LLM社会偏见评估主要集中于性别和种族,缺乏对政治价值观的细粒度分析,无法准确衡量政治倾向。
  2. PoliticsBench通过多轮角色扮演模拟真实场景,评估LLM在不同情境下的政治立场和价值观倾向,更贴近实际应用。
  3. 实验结果表明,多数商业LLM存在左倾偏见,且不同模型在价值观对齐和推理方式上存在差异,揭示了潜在的价值观风险。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作主要信息来源,但其潜在的政治偏见可能会影响其客观性。现有的LLM社会偏见基准主要评估性别和种族刻板印象。当包含政治偏见时,通常在粗略的层面上进行测量,忽略了塑造社会政治倾向的具体价值观。本研究使用PoliticsBench(一种改编自EQ-Bench-v3心理测量基准的新型多轮角色扮演框架)来调查八个著名LLM(Claude、Deepseek、Gemini、GPT、Grok、Llama、Qwen Base、Qwen Instruction-Tuned)中的政治偏见。我们测试了商业开发的LLM是否表现出系统的左倾偏见,这种偏见在多阶段角色扮演的后期阶段变得更加明显。通过二十个不断演变的情景,每个模型报告了其立场并确定了其行动方案。根据十个政治价值观对这些反应进行评分,我们探讨了聊天机器人偏离公正标准的潜在价值观。八个模型中有七个倾向于左倾,而Grok倾向于右倾。每个左倾的LLM都强烈表现出自由主义特征,并适度表现出保守主义特征。我们发现在角色扮演的各个阶段,对齐分数略有变化,没有特定的模式。虽然大多数模型使用基于结果的推理,但Grok经常用事实和统计数据进行辩论。我们的研究通过多阶段自由文本交互,首次对LLM中的政治价值观进行了心理测量评估。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)在社会偏见评估方面存在不足,尤其是在政治价值观方面。现有的基准测试通常只关注性别和种族偏见,而忽略了政治价值观的细粒度分析。此外,现有的政治偏见评估方法通常是粗略的,无法捕捉到LLM在复杂情境下的真实政治倾向。因此,需要一种更全面、更细致的方法来评估LLM中的政治价值观。

核心思路:本研究的核心思路是利用多轮角色扮演框架,模拟真实世界的复杂情境,从而更准确地评估LLM的政治价值观。通过让LLM在不同的情境下进行决策和表达观点,可以观察其在不同政治价值观上的倾向。这种方法借鉴了心理测量学中的EQ-Bench-v3,旨在通过模拟真实情境来评估LLM的政治倾向。

技术框架:PoliticsBench框架包含以下主要模块: 1. 情境设计:设计20个不断演变的情境,每个情境都涉及不同的政治议题和价值观。 2. 角色扮演:让LLM在每个情境中扮演特定的角色,并根据情境发展做出决策和表达观点。 3. 价值观评分:根据LLM的反应,使用一套包含十个政治价值观的评分体系对其进行评分。 4. 偏见分析:分析LLM在不同价值观上的得分,从而评估其政治偏见。

关键创新:本研究的关键创新在于: 1. 多轮角色扮演框架:通过多轮交互,模拟真实世界的复杂情境,从而更准确地评估LLM的政治价值观。 2. 细粒度的价值观评分体系:使用一套包含十个政治价值观的评分体系,从而更细致地分析LLM的政治偏见。 3. 心理测量学方法:借鉴心理测量学中的EQ-Bench-v3,将心理测量学方法应用于LLM的政治偏见评估。

关键设计:在情境设计方面,研究人员精心设计了20个情境,每个情境都涉及不同的政治议题和价值观,例如自由、平等、保守主义等。在价值观评分方面,研究人员使用了一套包含十个政治价值观的评分体系,每个价值观都有明确的定义和评分标准。此外,研究人员还对LLM的推理方式进行了分析,发现大多数模型使用基于结果的推理,而Grok则经常用事实和统计数据进行辩论。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,八个主流LLM中有七个表现出左倾偏见,而Grok则倾向于右倾。左倾模型普遍具有较强的自由主义特征,并适度表现出保守主义特征。在多轮角色扮演中,各模型的价值观对齐分数略有波动,但无明显规律。Grok模型在推理过程中更倾向于使用事实和统计数据,与其他模型基于结果的推理方式有所不同。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的政治中立性,降低其在信息传播和决策支持中的潜在偏见风险。通过PoliticsBench,开发者可以更好地了解模型的价值观倾向,并采取措施进行调整,确保AI系统在政治敏感领域应用时的公正性和客观性。此外,该方法也可用于评估其他类型的社会偏见,具有广泛的应用前景。

📄 摘要(原文)

While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact their objectivity. Existing benchmarks of LLM social bias primarily evaluate gender and racial stereotypes. When political bias is included, it is typically measured at a coarse level, neglecting the specific values that shape sociopolitical leanings. This study investigates political bias in eight prominent LLMs (Claude, Deepseek, Gemini, GPT, Grok, Llama, Qwen Base, Qwen Instruction-Tuned) using PoliticsBench: a novel multi-turn roleplay framework adapted from the EQ-Bench-v3 psychometric benchmark. We test whether commercially developed LLMs display a systematic left-leaning bias that becomes more pronounced in later stages of multi-stage roleplay. Through twenty evolving scenarios, each model reported its stance and determined its course of action. Scoring these responses on a scale of ten political values, we explored the values underlying chatbots' deviations from unbiased standards. Seven of our eight models leaned left, while Grok leaned right. Each left-leaning LLM strongly exhibited liberal traits and moderately exhibited conservative ones. We discovered slight variations in alignment scores across stages of roleplay, with no particular pattern. Though most models used consequence-based reasoning, Grok frequently argued with facts and statistics. Our study presents the first psychometric evaluation of political values in LLMs through multi-stage, free-text interactions.