Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges
作者: Nandan Thakur, Ronak Pradeep, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-04-21
备注: Accepted at SIGIR 2025 (short)
💡 一句话要点
对比人类与LLM评估RAG系统支持度,验证GPT-4o作为评估者的可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 RAG评估 LLM评估 支持度评估 GPT-4o TREC RAG Track
📋 核心要点
- RAG系统依赖于检索到的文档来生成答案,但评估这些文档是否真正支持答案是一个挑战。
- 该研究对比了人类评估员和GPT-4o在评估RAG系统答案支持度方面的表现,旨在验证LLM作为评估者的可行性。
- 实验结果表明,GPT-4o在评估支持度方面与人类评估员具有较高的一致性,甚至在某些情况下优于人类评估员。
📝 摘要(中文)
检索增强生成(RAG)使大型语言模型(LLM)能够生成带有引文的答案,这些引文来自包含“ground truth”的源文档,从而减少系统幻觉。RAG评估中的一个关键因素是“支持”,即引用的文档中的信息是否支持答案。为此,我们对TREC 2024 RAG Track的45个参与者提交的36个主题进行了一项大规模的比较研究,比较了自动LLM评估器(GPT-4o)与人类评估员对支持评估的性能。我们考虑了两种情况:(1)完全手动从头开始的评估,以及(2)手动评估并对LLM预测进行后编辑。我们的结果表明,对于56%的完全手动评估,人类和GPT-4o的预测完全匹配(在三级量表上),在手动后编辑条件下增加到72%。此外,通过对无偏研究中的分歧进行仔细分析,我们发现独立的人类评估员与GPT-4o的相关性高于人类评估员,这表明LLM评估员可以作为支持评估的可靠替代方案。最后,我们对人类和GPT-4o的错误进行了定性分析,以帮助指导未来支持评估的迭代。
🔬 方法详解
问题定义:论文旨在解决RAG系统中答案“支持度”的评估问题。现有方法依赖于人工评估,成本高昂且耗时。论文探索使用LLM自动评估答案的支持度,以降低评估成本并提高效率。现有方法的痛点在于人工评估的主观性和可扩展性问题。
核心思路:论文的核心思路是利用LLM(具体为GPT-4o)作为自动评估器,判断RAG系统生成的答案是否得到了检索到的文档的支持。通过对比LLM评估结果与人工评估结果,验证LLM作为评估器的可靠性。这样设计的目的是为了降低人工评估的成本,并实现大规模的RAG系统评估。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集TREC 2024 RAG Track的参赛系统提交的结果,包括问题、生成的答案以及支持文档。2) 使用GPT-4o对每个答案的支持度进行评估,得到LLM的评估结果。3) 进行人工评估,作为ground truth。人工评估分为两种模式:完全手动评估和基于LLM预测进行后编辑的评估。4) 对比LLM评估结果和人工评估结果,计算一致性指标,并分析两者之间的差异。
关键创新:该研究的关键创新在于:1) 系统性地对比了LLM(GPT-4o)和人类评估员在RAG系统支持度评估任务上的表现。2) 发现GPT-4o在一定程度上可以替代人类评估员,并且在某些情况下表现更好。3) 提供了关于LLM和人类评估员错误的定性分析,为未来改进评估方法提供了指导。
关键设计:该研究的关键设计包括:1) 使用TREC RAG Track的数据集,保证了评估的公平性和可比性。2) 采用了两种人工评估模式,全面地评估了LLM作为评估器的性能。3) 对LLM和人类评估员的错误进行了详细的定性分析,为后续研究提供了有价值的参考。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在56%的完全手动评估中与人类评估员的判断完全一致,在人工后编辑模式下一致性达到72%。更重要的是,独立的人工评估员与GPT-4o的相关性高于与另一位人工评估员的相关性,这表明GPT-4o可以作为RAG系统支持度评估的可靠替代方案。
🎯 应用场景
该研究成果可应用于大规模RAG系统的自动评估,降低评估成本,加速RAG系统的迭代优化。此外,该研究也为其他自然语言生成任务的自动评估提供了借鉴,有助于推动LLM在更多领域的应用。
📄 摘要(原文)
Retrieval-augmented generation (RAG) enables large language models (LLMs) to generate answers with citations from source documents containing "ground truth", thereby reducing system hallucinations. A crucial factor in RAG evaluation is "support", whether the information in the cited documents supports the answer. To this end, we conducted a large-scale comparative study of 45 participant submissions on 36 topics to the TREC 2024 RAG Track, comparing an automatic LLM judge (GPT-4o) against human judges for support assessment. We considered two conditions: (1) fully manual assessments from scratch and (2) manual assessments with post-editing of LLM predictions. Our results indicate that for 56% of the manual from-scratch assessments, human and GPT-4o predictions match perfectly (on a three-level scale), increasing to 72% in the manual with post-editing condition. Furthermore, by carefully analyzing the disagreements in an unbiased study, we found that an independent human judge correlates better with GPT-4o than a human judge, suggesting that LLM judges can be a reliable alternative for support assessment. To conclude, we provide a qualitative analysis of human and GPT-4o errors to help guide future iterations of support assessment.