PolBiX: Detecting LLMs' Political Bias in Fact-Checking through X-phemisms

📄 arXiv: 2509.15335v2 📥 PDF

作者: Charlott Jakob, David Harbecke, Patrick Parschan, Pia Wenzel Neves, Vera Schmitt

分类: cs.CL

发布日期: 2025-09-18 (更新: 2025-09-23)

备注: Accepted at Findings of EMNLP 2025, camera-ready version


💡 一句话要点

PolBiX:通过委婉语检测大型语言模型在事实核查中的政治偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 政治偏见 事实核查 委婉语 粗俗语

📋 核心要点

  1. 大型语言模型在客观评估任务中应用广泛,但潜在的政治偏见可能影响其判断。
  2. 该研究通过在德语声明中替换委婉语,构建政治倾向不同的最小对,考察模型一致性。
  3. 实验表明,判断性词语比政治倾向更能影响模型的事实核查,客观提示作用有限。

📝 摘要(中文)

大型语言模型越来越多地应用于需要客观评估的场景,但政治偏见可能会损害其性能。许多研究发现大型语言模型偏好左倾立场,但对事实核查等下游任务的影响尚未充分探索。本研究系统地调查了通过在德语声明中交换委婉语或粗俗语来产生的政治偏见。我们构建了事实等价但政治内涵不同的最小声明对,以评估大型语言模型在将其分类为真或假时的一致性。我们评估了六个大型语言模型,发现判断性词语的存在比政治倾向更显著地影响了真实性评估。虽然一些模型显示出政治偏见的倾向,但明确要求提示中的客观性并不能缓解这种情况。警告:本文包含可能令人反感或不安的内容。

🔬 方法详解

问题定义:该论文旨在研究大型语言模型(LLMs)在事实核查任务中存在的政治偏见。现有方法主要关注LLMs的政治立场,而忽略了政治偏见对下游任务(如事实核查)的具体影响。此外,现有研究较少关注语言表达方式(例如使用委婉语或粗俗语)对LLMs判断的影响。

核心思路:论文的核心思路是通过构建包含委婉语和粗俗语的最小声明对,来系统性地评估LLMs在事实核查任务中的政治偏见。这些声明对在事实层面是等价的,但由于使用了不同的表达方式,从而带有不同的政治内涵。通过观察LLMs对这些声明对的判断一致性,可以推断其是否存在政治偏见。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建包含委婉语和粗俗语的德语声明对数据集;2) 选择多个大型语言模型进行评估;3) 设计实验提示,包括客观提示和无提示两种情况;4) 分析LLMs对声明对的判断结果,评估其政治偏见程度。

关键创新:该论文的关键创新在于:1) 提出了一种基于委婉语和粗俗语的政治偏见评估方法,能够更细致地分析LLMs在事实核查任务中的政治偏见;2) 构建了一个包含德语声明对的数据集,为后续研究提供了数据基础;3) 实验结果表明,判断性词语比政治倾向更能影响LLMs的事实核查能力。

关键设计:在数据集构建方面,论文作者精心挑选了德语中常用的委婉语和粗俗语,并将其应用于不同的政治议题。在实验设计方面,论文作者采用了最小声明对的设计,确保声明对在事实层面是等价的,从而能够更准确地评估LLMs的政治偏见。此外,论文作者还尝试了不同的提示策略,以探究客观提示对缓解政治偏见的作用。

📊 实验亮点

实验结果表明,判断性词语的存在比政治倾向更显著地影响了大型语言模型的事实核查能力。虽然一些模型显示出政治偏见的倾向,但明确要求提示中的客观性并不能有效缓解这种情况。这表明,仅仅依靠提示工程可能无法完全消除LLMs中的政治偏见,需要更深入的研究和干预。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在信息检索、新闻摘要、虚假信息检测等领域的客观性和公正性。通过识别和减轻LLMs中的政治偏见,可以提高其在敏感领域的可靠性和可信度,避免误导公众或加剧社会矛盾。未来的研究可以进一步探索不同语言和文化背景下的政治偏见,并开发更有效的缓解策略。

📄 摘要(原文)

Large Language Models are increasingly used in applications requiring objective assessment, which could be compromised by political bias. Many studies found preferences for left-leaning positions in LLMs, but downstream effects on tasks like fact-checking remain underexplored. In this study, we systematically investigate political bias through exchanging words with euphemisms or dysphemisms in German claims. We construct minimal pairs of factually equivalent claims that differ in political connotation, to assess the consistency of LLMs in classifying them as true or false. We evaluate six LLMs and find that, more than political leaning, the presence of judgmental words significantly influences truthfulness assessment. While a few models show tendencies of political bias, this is not mitigated by explicitly calling for objectivism in prompts. Warning: This paper contains content that may be offensive or upsetting.