Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models

作者: Shuliang Liu, Xinze Li, Zhenghao Liu, Yukun Yan, Cheng Yang, Zheni Zeng, Zhiyuan Liu, Maosong Sun, Ge Yu

分类: cs.CL

发布日期: 2025-02-26

🔗 代码/项目: GITHUB

💡 一句话要点

ConsJudge：利用大语言模型的判断一致性提升检索增强生成模型的评估

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG评估 大语言模型 判断一致性 DPO训练

📋 核心要点

现有RAG评估指标无法准确评估模型输出，且基于LLM的评估易受提示词影响，导致评估结果不一致。
ConsJudge通过提示LLM基于不同维度进行多次判断，并利用判断一致性筛选高质量评估结果。
实验证明ConsJudge能为RAG模型优化提供更准确的判断，且与更强大的LLM评估结果高度一致。

📝 摘要（中文）

检索增强生成（RAG）已被证明能有效缓解大语言模型（LLM）的幻觉问题。然而，现有的自动评估指标无法公平地评估RAG模型在训练和评估过程中生成的输出。基于LLM的判断模型有潜力产生高质量的判断，但它们对评估提示词高度敏感，导致在判断RAG模型的输出时出现不一致性。本文提出了Judge-Consistency（ConsJudge）方法，旨在增强LLM，使其为RAG模型生成更准确的评估。具体来说，ConsJudge提示LLM基于判断维度的不同组合生成不同的判断，利用判断一致性来评估这些判断，并选择接受和拒绝的判断用于DPO训练。实验表明，ConsJudge可以有效地为优化各种RAG模型和数据集提供更准确的判断。进一步的分析表明，ConsJudge生成的判断与更强大的LLM具有高度一致性。所有代码可在https://github.com/OpenBMB/ConsJudge 获取。

🔬 方法详解

问题定义：论文旨在解决RAG模型评估中，现有自动评估指标不准确以及基于LLM的评估方法因提示词敏感而导致结果不一致的问题。现有方法无法有效区分RAG模型生成结果的优劣，阻碍了RAG模型的优化和发展。

核心思路：ConsJudge的核心思路是利用LLM自身对同一RAG模型输出进行多次评估，并通过判断一致性来筛选出更可靠的评估结果。通过引入一致性约束，降低了单个提示词对评估结果的影响，提高了评估的鲁棒性和准确性。

技术框架：ConsJudge方法主要包含以下几个阶段：1) 提示LLM基于不同的判断维度组合生成多个评估结果；2) 计算这些评估结果之间的判断一致性；3) 基于一致性得分，选择接受和拒绝的判断；4) 使用DPO（Direct Preference Optimization）训练，优化评估模型。整个框架旨在提高LLM评估RAG模型输出的准确性和一致性。

关键创新：ConsJudge的关键创新在于引入了“判断一致性”的概念，并将其应用于RAG模型的评估中。与传统的单一评估方法不同，ConsJudge通过多次评估和一致性筛选，有效地降低了评估结果的偏差，提高了评估的可靠性。

关键设计：ConsJudge的关键设计包括：1) 多维度评估提示词的设计，确保LLM从不同角度评估RAG模型的输出；2) 判断一致性的计算方法，例如可以使用简单的投票机制或者更复杂的相似度度量方法；3) DPO训练的目标函数，旨在使评估模型更倾向于选择一致性高的评估结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ConsJudge能够为RAG模型提供更准确的判断，从而优化RAG模型的性能。ConsJudge生成的判断与更强大的LLM具有高度一致性，验证了其有效性。该方法在多个RAG模型和数据集上都取得了显著的提升。

🎯 应用场景

ConsJudge可应用于各种RAG模型的训练和评估，提升RAG模型生成质量。该方法也可推广到其他生成式模型的评估，例如文本摘要、机器翻译等。高质量的评估体系能够加速AI模型的迭代和优化，推动相关技术的发展。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has proven its effectiveness in alleviating hallucinations for Large Language Models (LLMs). However, existing automated evaluation metrics cannot fairly evaluate the outputs generated by RAG models during training and evaluation. LLM-based judgment models provide the potential to produce high-quality judgments, but they are highly sensitive to evaluation prompts, leading to inconsistencies when judging the output of RAG models. This paper introduces the Judge-Consistency (ConsJudge) method, which aims to enhance LLMs to generate more accurate evaluations for RAG models. Specifically, ConsJudge prompts LLMs to generate different judgments based on various combinations of judgment dimensions, utilize the judge-consistency to evaluate these judgments and select the accepted and rejected judgments for DPO training. Our experiments show that ConsJudge can effectively provide more accurate judgments for optimizing RAG models across various RAG models and datasets. Further analysis reveals that judgments generated by ConsJudge have a high agreement with the superior LLM. All codes are available at https://github.com/OpenBMB/ConsJudge.

Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理