The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models

📄 arXiv: 2504.15068v1 📥 PDF

作者: Ronak Pradeep, Nandan Thakur, Shivani Upadhyay, Daniel Campos, Nick Craswell, Jimmy Lin

分类: cs.IR, cs.CL

发布日期: 2025-04-21

备注: To appear in SIGIR 2025. Significant updates and revisions to arXiv:2411.09607


💡 一句话要点

提出AutoNuggetizer框架,利用大语言模型自动化RAG系统的事实抽取与评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG评估 大语言模型 自动化评估 事实抽取

📋 核心要点

  1. RAG系统评估缺乏有效方法,阻碍了其持续发展,现有方法成本高昂且效率低下。
  2. 提出AutoNuggetizer框架,利用LLM自动生成和分配nugget,从而实现RAG系统的自动化评估。
  3. 实验结果表明,全自动nugget评估与人工评估结果高度一致,为RAG系统开发提供指导。

📝 摘要(中文)

本文提出了一种自动评估框架,旨在解决检索增强生成(RAG)系统评估的难题,并已通过人工标注验证。该框架基于nugget评估方法,该方法最初为2003年TREC问答(QA)Track开发,通过评估答案中应存在的原子事实来评估系统。本文重点在于“重构”此方法,提出了AutoNuggetizer框架,该框架专门应用LLM来自动创建nugget并自动将nugget分配给系统答案。在TREC 2024 RAG Track的背景下,本文将完全自动化的方法与人工或半人工创建nugget并手动分配给系统答案的策略进行了校准。社区范围的评估结果表明,完全自动nugget评估与基于人工的变体之间在运行级别上具有很强的一致性。当nugget分配等单个框架组件独立自动化时,一致性更强。这表明该评估框架在工作量和质量之间提供了权衡,可用于指导未来RAG系统的开发。然而,需要进一步研究来完善该方法,尤其是在建立稳健的每个主题的一致性以有效诊断系统故障方面。

🔬 方法详解

问题定义:现有RAG系统的评估依赖于人工标注,成本高昂且耗时。缺乏自动化、高效的评估方法阻碍了RAG系统的快速迭代和优化。TREC QA Track中使用的nugget评估方法虽然有效,但人工创建和分配nugget的成本限制了其应用。

核心思路:利用大语言模型(LLM)强大的文本理解和生成能力,自动化nugget的创建和分配过程。通过LLM自动提取答案中的原子事实(nugget),并判断这些nugget是否与检索到的文档相关,从而评估RAG系统的性能。这种方法旨在降低评估成本,提高评估效率,并为RAG系统的开发提供更快的反馈循环。

技术框架:AutoNuggetizer框架包含两个主要模块:nugget生成模块和nugget分配模块。nugget生成模块使用LLM从检索到的文档中提取候选nugget。nugget分配模块使用LLM判断系统生成的答案是否包含这些nugget。整个流程包括:1. 给定问题,RAG系统生成答案;2. LLM从相关文档中提取nugget;3. LLM判断答案是否包含这些nugget;4. 根据nugget的覆盖率计算评估指标。

关键创新:核心创新在于利用LLM自动化了nugget评估流程,无需人工干预。与传统方法相比,AutoNuggetizer框架显著降低了评估成本,提高了评估效率。此外,该框架可以灵活地应用于不同的RAG系统和数据集,具有很强的通用性。

关键设计:在nugget生成模块中,使用了特定的prompt工程技术来指导LLM提取高质量的nugget。在nugget分配模块中,采用了相似度匹配和文本蕴含等技术来提高判断的准确性。此外,论文还探索了不同的LLM模型和参数设置,以优化框架的性能。具体的技术细节和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AutoNuggetizer框架与人工评估结果在运行级别上具有高度一致性。当独立自动化nugget分配等组件时,一致性更强。这表明该框架在评估质量和人工成本之间取得了良好的平衡,为RAG系统的开发提供了有价值的指导。

🎯 应用场景

该研究成果可广泛应用于RAG系统的开发和评估,例如智能客服、知识库问答、信息检索等领域。通过自动化评估,可以快速迭代和优化RAG系统,提高其准确性和效率。此外,该方法还可以用于评估其他类型的文本生成系统,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large Language Models (LLMs) have significantly enhanced the capabilities of information access systems, especially with retrieval-augmented generation (RAG). Nevertheless, the evaluation of RAG systems remains a barrier to continued progress, a challenge we tackle in this work by proposing an automatic evaluation framework that is validated against human annotations. We believe that the nugget evaluation methodology provides a solid foundation for evaluating RAG systems. This approach, originally developed for the TREC Question Answering (QA) Track in 2003, evaluates systems based on atomic facts that should be present in good answers. Our efforts focus on "refactoring" this methodology, where we describe the AutoNuggetizer framework that specifically applies LLMs to both automatically create nuggets and automatically assign nuggets to system answers. In the context of the TREC 2024 RAG Track, we calibrate a fully automatic approach against strategies where nuggets are created manually or semi-manually by human assessors and then assigned manually to system answers. Based on results from a community-wide evaluation, we observe strong agreement at the run level between scores derived from fully automatic nugget evaluation and human-based variants. The agreement is stronger when individual framework components such as nugget assignment are automated independently. This suggests that our evaluation framework provides tradeoffs between effort and quality that can be used to guide the development of future RAG systems. However, further research is necessary to refine our approach, particularly in establishing robust per-topic agreement to diagnose system failures effectively.