LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation

📄 arXiv: 2410.20833v2 📥 PDF

作者: Yen-Shan Chen, Jing Jin, Peng-Ting Kuo, Chao-Wei Huang, Yun-Nung Chen

分类: cs.CL

发布日期: 2024-10-28 (更新: 2025-12-07)

备注: 15 pages, 14 tables, 5 figures Accepted to ACL Findings 2025


💡 一句话要点

研究表明,大语言模型在检索增强生成中作为评估者时,偏见不明显,更注重事实准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 检索增强生成 评估偏见 事实准确性 阅读理解 问答系统

📋 核心要点

  1. 现有研究表明LLM在评估任务中存在偏见,尤其偏爱自身生成内容,但RAG框架中LLM的偏见程度尚不明确。
  2. 该研究模拟RAG框架的重排序和生成阶段,评估LLM对人工和模型生成内容的偏好,以及事实准确性的影响。
  3. 实验结果表明,在RAG框架中,LLM的评估更注重事实准确性,而非对自身生成内容的偏好,该结论在多个数据集和模型上得到验证。

📝 摘要(中文)

近期研究表明,大型语言模型(LLMs)在评估任务中表现出显著的偏见,尤其是在优先评价和偏爱自身生成的内容方面。然而,这种偏见在面向事实的任务中,特别是在检索增强生成(RAG)框架内,其表现程度尚不清楚,在RAG框架中,关键词提取和事实准确性优先于文体要素。本研究通过模拟RAG框架的两个关键阶段来解决这一知识差距。第一阶段,LLMs评估人工撰写和模型生成的段落,模拟“逐点重排序阶段”。第二阶段,进行成对阅读理解测试,以模拟“生成阶段”。与先前表明在评分任务中存在自我偏好的研究结果相反,我们的结果表明在RAG框架中没有显著的自我偏好效应。相反,我们观察到事实准确性显著影响LLMs的输出,即使在缺乏先验知识的情况下也是如此。这些发现与三个常见的QA数据集(NQ、MARCO、TriviaQA数据集)和5个广泛采用的语言模型(GPT-3.5、GPT-4o-mini、Gemini、LLaMA3和Mistral)一致。我们的研究有助于正在进行的关于LLM偏见及其对基于RAG的系统影响的讨论,提供的见解可能有助于开发更强大和公正的LLM系统。

🔬 方法详解

问题定义:现有研究表明,大型语言模型在评估任务中存在偏见,倾向于给予自己生成的内容更高的评价。然而,在检索增强生成(RAG)框架下,这种偏见是否依然存在,以及事实准确性在评估中的作用,尚不明确。现有方法没有充分考察RAG框架下LLM的评估偏见问题。

核心思路:该研究的核心思路是通过模拟RAG框架的关键阶段,即检索后的重排序和生成阶段,来评估LLM在不同阶段的偏见表现。通过比较LLM对人工撰写和模型生成内容的评价,以及考察事实准确性对LLM输出的影响,从而揭示RAG框架下LLM的评估偏见特点。

技术框架:该研究的技术框架主要包含两个阶段的模拟实验: 1. 逐点重排序阶段模拟:LLM对人工撰写和模型生成的段落进行评估和排序,考察LLM对不同来源内容的偏好。 2. 生成阶段模拟:通过成对阅读理解测试,比较LLM在不同上下文信息下的生成结果,考察事实准确性对LLM生成质量的影响。

关键创新:该研究的关键创新在于,它首次系统性地研究了LLM在RAG框架下的评估偏见问题,并发现LLM在RAG框架中更注重事实准确性,而非对自身生成内容的偏好。这一发现与以往研究中LLM的自我偏好结论有所不同,为RAG系统的开发提供了新的视角。

关键设计: 1. 数据集选择:使用了NQ、MARCO、TriviaQA等多个常用的QA数据集,以保证实验结果的泛化性。 2. 模型选择:选择了GPT-3.5、GPT-4o-mini、Gemini、LLaMA3和Mistral等多个主流的LLM,以考察不同模型的表现。 3. 评估指标:采用了准确率等指标来衡量LLM的生成质量,并设计了专门的评估方法来考察LLM的偏见程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在RAG框架下,LLM的评估更注重事实准确性,而非对自身生成内容的偏好。这一结论在三个常用的QA数据集(NQ、MARCO、TriviaQA)和五个主流的LLM(GPT-3.5、GPT-4o-mini、Gemini、LLaMA3和Mistral)上都得到了验证。该研究为RAG系统的开发提供了新的视角。

🎯 应用场景

该研究的成果可以应用于优化检索增强生成(RAG)系统,提高其生成内容的质量和可靠性。通过更好地理解LLM在RAG框架下的评估偏见,可以设计更有效的提示工程和训练策略,从而构建更公正、更准确的LLM系统。此外,该研究也为LLM的偏见研究提供了新的思路。

📄 摘要(原文)

Recent studies have demonstrated that large language models (LLMs) exhibit significant biases in evaluation tasks, particularly in preferentially rating and favoring self-generated content. However, the extent to which this bias manifests in fact-oriented tasks, especially within retrieval-augmented generation (RAG) frameworks, where keyword extraction and factual accuracy take precedence over stylistic elements, remains unclear. Our study addresses this knowledge gap by simulating two critical phases of the RAG framework. In the first phase, LLMs evaluated human-authored and model-generated passages, emulating the \textit{pointwise reranking phase}. The second phase involves conducting pairwise reading comprehension tests to simulate the \textit{generation phase}. Contrary to previous findings indicating a self-preference in rating tasks, our results reveal no significant self-preference effect in RAG frameworks. Instead, we observe that factual accuracy significantly influences LLMs' output, even in the absence of prior knowledge. These findings are consistent among three common QA datasets (NQ, MARCO, TriviaQA Datasets) and 5 widely adopted language models (GPT-3.5, GPT-4o-mini, Gemini, LLaMA3, and Mistral). Our research contributes to the ongoing discourse on LLM biases and their implications for RAG-based system, offering insights that may inform the development of more robust and unbiased LLM systems.