Large Language Models are Perplexed by some Political Parties

📄 arXiv: 2606.05937v1 📥 PDF

作者: Paul Lerner, François Yvon

分类: cs.CL

发布日期: 2026-06-04


💡 一句话要点

评估大型语言模型在政治公平性上的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治公平性 困惑度 文本分析 多语言处理

📋 核心要点

  1. 现有研究对大型语言模型在政治应用中的公平性关注不足,尤其是对不同政治团体的表现差异。
  2. 本文提出通过困惑度评估LLMs的政治公平性,假设公平模型应对所有政治团体给予相同概率。
  3. 研究结果表明,LLMs对极右和民族主义政党的文本困惑度较高,且与翻译公平性研究结果一致。

📝 摘要(中文)

大型语言模型(LLMs)在政治应用中越来越普遍,但其政治公平性研究较少。本文通过困惑度评估模型的公平性,假设一个公平的模型应对所有政治团体给予相等的概率。研究发现,在十种LLMs和三个涵盖37种语言的数据集上,LLMs对极右和民族主义政党的文本表现出更高的困惑度,而对社会民主党的文本则较低。这一发现与先前的翻译公平性研究一致,表明困惑度与下游翻译指标相关。该方法适用于基础LLMs及其指令调优版本,结果显示两者高度相关,表明LLMs的政治公平性主要源于预训练,指令调优影响有限。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在政治文本处理中的公平性问题,现有方法未能充分评估不同政治团体的表现差异,导致潜在的偏见。

核心思路:通过困惑度这一指标来评估模型对不同政治团体文本的理解能力,假设公平的模型应对所有团体给予相等的概率。

技术框架:研究使用十种不同的LLMs和三个多语言数据集,分析其对37种语言的文本困惑度,比较极右、民族主义和社会民主党文本的表现。

关键创新:提出使用困惑度作为评估政治公平性的指标,发现其与翻译公平性研究结果一致,表明模型的政治公平性主要源于预训练阶段。

关键设计:研究中使用的困惑度计算方法和数据集设计,确保了对不同政治团体文本的全面评估,且结果显示基础模型与指令调优模型之间的高度相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,十种LLMs在处理极右和民族主义政党文本时的困惑度显著高于社会民主党文本,表明模型在政治文本理解上的偏见。该研究为理解LLMs的公平性提供了新的视角,并与翻译公平性研究结果高度一致。

🎯 应用场景

该研究的潜在应用领域包括政治文本分析、舆情监测和社交媒体内容审核等。通过评估大型语言模型的政治公平性,可以帮助开发更公正的AI系统,减少潜在的偏见,促进社会公正。未来,研究结果可能影响政策制定和AI伦理标准的建立。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used, including in political applications, but their political fairness has been little studied. We assess it using perplexity, posing that a fair model should give equal probability to all political groups. However, we find, across ten LLMs and three datasets covering 37 languages, that LLMs are more perplexed by the texts of far right and nationalist parties than of social-democratic parties. We find this to be consistent with previous work on translation fairness, to the point that perplexity correlates with downstream translation metrics. Our method is applicable to both base LLMs as well as their instruction-tuned counterpart, and we find that both are highly correlated, suggesting that the political fairness of LLMs stems from their pretraining, and is hardly affected by instruction-tuning.