Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges

作者: Nandan Thakur, Ronak Pradeep, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-04-21

备注: Accepted at SIGIR 2025 (short)

💡 一句话要点

对比人类与LLM评估RAG系统支持度，验证GPT-4o作为评估者的可靠性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG评估 LLM评估 支持度评估 GPT-4o TREC RAG Track

📋 核心要点

RAG系统依赖于检索到的文档来生成答案，但评估这些文档是否真正支持答案是一个挑战。
该研究对比了人类评估员和GPT-4o在评估RAG系统答案支持度方面的表现，旨在验证LLM作为评估者的可行性。
实验结果表明，GPT-4o在评估支持度方面与人类评估员具有较高的一致性，甚至在某些情况下优于人类评估员。

📝 摘要（中文）

检索增强生成（RAG）使大型语言模型（LLM）能够生成带有引文的答案，这些引文来自包含“ground truth”的源文档，从而减少系统幻觉。RAG评估中的一个关键因素是“支持”，即引用的文档中的信息是否支持答案。为此，我们对TREC 2024 RAG Track的45个参与者提交的36个主题进行了一项大规模的比较研究，比较了自动LLM评估器（GPT-4o）与人类评估员对支持评估的性能。我们考虑了两种情况：（1）完全手动从头开始的评估，以及（2）手动评估并对LLM预测进行后编辑。我们的结果表明，对于56%的完全手动评估，人类和GPT-4o的预测完全匹配（在三级量表上），在手动后编辑条件下增加到72%。此外，通过对无偏研究中的分歧进行仔细分析，我们发现独立的人类评估员与GPT-4o的相关性高于人类评估员，这表明LLM评估员可以作为支持评估的可靠替代方案。最后，我们对人类和GPT-4o的错误进行了定性分析，以帮助指导未来支持评估的迭代。

🔬 方法详解

问题定义：论文旨在解决RAG系统中答案“支持度”的评估问题。现有方法依赖于人工评估，成本高昂且耗时。论文探索使用LLM自动评估答案的支持度，以降低评估成本并提高效率。现有方法的痛点在于人工评估的主观性和可扩展性问题。

核心思路：论文的核心思路是利用LLM（具体为GPT-4o）作为自动评估器，判断RAG系统生成的答案是否得到了检索到的文档的支持。通过对比LLM评估结果与人工评估结果，验证LLM作为评估器的可靠性。这样设计的目的是为了降低人工评估的成本，并实现大规模的RAG系统评估。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 收集TREC 2024 RAG Track的参赛系统提交的结果，包括问题、生成的答案以及支持文档。2) 使用GPT-4o对每个答案的支持度进行评估，得到LLM的评估结果。3) 进行人工评估，作为ground truth。人工评估分为两种模式：完全手动评估和基于LLM预测进行后编辑的评估。4) 对比LLM评估结果和人工评估结果，计算一致性指标，并分析两者之间的差异。

关键创新：该研究的关键创新在于：1) 系统性地对比了LLM（GPT-4o）和人类评估员在RAG系统支持度评估任务上的表现。2) 发现GPT-4o在一定程度上可以替代人类评估员，并且在某些情况下表现更好。3) 提供了关于LLM和人类评估员错误的定性分析，为未来改进评估方法提供了指导。

关键设计：该研究的关键设计包括：1) 使用TREC RAG Track的数据集，保证了评估的公平性和可比性。2) 采用了两种人工评估模式，全面地评估了LLM作为评估器的性能。3) 对LLM和人类评估员的错误进行了详细的定性分析，为后续研究提供了有价值的参考。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-4o在56%的完全手动评估中与人类评估员的判断完全一致，在人工后编辑模式下一致性达到72%。更重要的是，独立的人工评估员与GPT-4o的相关性高于与另一位人工评估员的相关性，这表明GPT-4o可以作为RAG系统支持度评估的可靠替代方案。

🎯 应用场景

该研究成果可应用于大规模RAG系统的自动评估，降低评估成本，加速RAG系统的迭代优化。此外，该研究也为其他自然语言生成任务的自动评估提供了借鉴，有助于推动LLM在更多领域的应用。

📄 摘要（原文）

Retrieval-augmented generation (RAG) enables large language models (LLMs) to generate answers with citations from source documents containing "ground truth", thereby reducing system hallucinations. A crucial factor in RAG evaluation is "support", whether the information in the cited documents supports the answer. To this end, we conducted a large-scale comparative study of 45 participant submissions on 36 topics to the TREC 2024 RAG Track, comparing an automatic LLM judge (GPT-4o) against human judges for support assessment. We considered two conditions: (1) fully manual assessments from scratch and (2) manual assessments with post-editing of LLM predictions. Our results indicate that for 56% of the manual from-scratch assessments, human and GPT-4o predictions match perfectly (on a three-level scale), increasing to 72% in the manual with post-editing condition. Furthermore, by carefully analyzing the disagreements in an unbiased study, we found that an independent human judge correlates better with GPT-4o than a human judge, suggesting that LLM judges can be a reliable alternative for support assessment. To conclude, we provide a qualitative analysis of human and GPT-4o errors to help guide future iterations of support assessment.

Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理