Source framing triggers systematic evaluation bias in Large Language Models

📄 arXiv: 2505.13488v1 📥 PDF

作者: Federico Germani, Giovanni Spitale

分类: cs.CL, cs.CY

发布日期: 2025-05-14


💡 一句话要点

源框架影响大语言模型评估,揭示系统性评估偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 评估偏差 源框架效应 文本评估 模型一致性

📋 核心要点

  1. 现有大语言模型在文本评估中被广泛应用,但其评估结果是否一致、公正且不受框架效应影响是亟待解决的问题。
  2. 该研究通过操纵陈述的来源信息(LLM或特定国籍的人类作者)来评估源框架效应对LLM评估结果的影响。
  3. 实验发现,在盲测条件下LLM间一致性高,但引入源框架后一致性降低,尤其当陈述归因于中国人时,评估分数显著降低。

📝 摘要(中文)

本文系统性地研究了源框架效应对大语言模型(LLMs)评估的影响。研究选取了四种先进的LLMs(OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2, 和 Mistral),让它们评估4800条叙述性陈述,这些陈述涉及24个不同的社会、政治和公共健康相关主题,总计进行了192,000次评估。研究操纵了每个陈述的来源信息,将其归因于另一个LLM或具有特定国籍的人类作者,以评估这种归因如何影响评估结果。结果表明,在盲测条件下,不同的LLMs在不同主题上表现出显著的高度模型间和模型内一致性。然而,当引入源框架时,这种一致性就会瓦解。研究发现,将陈述归因于中国人会系统性地降低所有模型的协议分数,特别是对于Deepseek Reasoner。这些发现表明,框架效应会深刻影响文本评估,对LLM介导的信息系统的完整性、中立性和公平性产生重大影响。

🔬 方法详解

问题定义:论文旨在研究大语言模型在文本评估中是否存在系统性偏差,具体来说,就是评估结果是否会受到陈述来源信息(即“源框架”)的影响。现有方法缺乏对这种偏差的系统性研究,无法保证LLM在评估任务中的公正性和客观性。

核心思路:论文的核心思路是通过操纵文本陈述的来源信息,观察不同LLM在评估这些陈述时的一致性变化。如果LLM的评估结果受到来源信息的影响,则表明存在源框架效应导致的评估偏差。这种设计能够量化和分析LLM评估中的潜在偏见。

技术框架:研究的整体框架包括以下几个步骤:1) 选取多个先进的LLM作为评估者;2) 准备包含多个主题的叙述性陈述;3) 操纵陈述的来源信息,将其归因于不同的LLM或具有特定国籍的人类作者;4) 让LLM评估这些陈述;5) 分析评估结果,比较不同来源信息下的模型间和模型内一致性。

关键创新:该研究的关键创新在于系统性地研究了源框架效应对LLM文本评估的影响。以往的研究较少关注LLM评估中的潜在偏见,而该研究通过精心设计的实验,揭示了LLM评估中存在的系统性偏差,并量化了这种偏差的程度。

关键设计:研究的关键设计包括:1) 选取具有代表性的LLM,包括OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2, 和 Mistral;2) 准备涵盖多个社会、政治和公共健康主题的陈述,以保证研究的广泛适用性;3) 使用盲测条件作为基准,对比不同来源信息下的评估结果;4) 使用模型间和模型内一致性作为评估指标,量化评估偏差的程度。

📊 实验亮点

实验结果表明,在盲测条件下,不同LLM在文本评估中表现出高度一致性。然而,当将陈述归因于中国人时,所有模型的评估分数均显著降低,尤其对于Deepseek Reasoner模型。这一发现揭示了LLM评估中存在的系统性偏差,并量化了源框架效应对评估结果的影响。

🎯 应用场景

该研究成果可应用于改进LLM驱动的信息系统,例如内容审核、舆情分析和新闻推荐等。通过消除源框架效应导致的评估偏差,可以提高这些系统的公正性、客观性和可靠性,避免歧视和不公平现象的发生。未来的研究可以探索更多类型的框架效应,并开发相应的缓解策略。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used not only to generate text but also to evaluate it, raising urgent questions about whether their judgments are consistent, unbiased, and robust to framing effects. In this study, we systematically examine inter- and intra-model agreement across four state-of-the-art LLMs (OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2, and Mistral) tasked with evaluating 4,800 narrative statements on 24 different topics of social, political, and public health relevance, for a total of 192,000 assessments. We manipulate the disclosed source of each statement to assess how attribution to either another LLM or a human author of specified nationality affects evaluation outcomes. We find that, in the blind condition, different LLMs display a remarkably high degree of inter- and intra-model agreement across topics. However, this alignment breaks down when source framing is introduced. Here we show that attributing statements to Chinese individuals systematically lowers agreement scores across all models, and in particular for Deepseek Reasoner. Our findings reveal that framing effects can deeply affect text evaluation, with significant implications for the integrity, neutrality, and fairness of LLM-mediated information systems.