RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

📄 arXiv: 2410.05193v3 📥 PDF

作者: Qiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma

分类: cs.CL

发布日期: 2024-10-07 (更新: 2025-04-07)


💡 一句话要点

RevisEval:通过响应适配的参考文本提升LLM作为评估器的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评估 文本生成评估 响应适配参考 自动评估 自然语言生成 指令跟随 文本修订

📋 核心要点

  1. 现有LLM评估器缺乏引导性的参考标准,导致其评估结果与人工评估存在差距,可靠性不足。
  2. RevisEval利用LLM的文本修订能力,根据待评估的生成文本自适应生成参考文本,保证参考文本与生成文本的相关性。
  3. 实验表明,RevisEval优于传统评估方法,并能显著提升经典文本评估指标的性能,有效降低评估偏差。

📝 摘要(中文)

本文提出了一种新的文本生成评估范式RevisEval,旨在提升大型语言模型(LLM)作为评估器的可靠性,使其更接近人工评估。RevisEval的核心思想是利用LLM的文本修订能力,根据待评估的生成文本(response)自适应地生成参考文本(response-adapted reference)。具体来说,RevisEval首先使用LLM对response进行修订,然后将修订后的文本作为参考文本,用于后续的评估过程。大量的实验表明,RevisEval在自然语言生成(NLG)任务和开放式指令跟随任务中,优于传统的无参考和基于参考的评估方法。更重要的是,与传统参考文本相比,RevisEval生成的参考文本能够显著提升经典文本评估指标(如BLEU和BERTScore)的性能,甚至可以与LLM作为评估器相媲美。此外,本文还进行了详细的分析,验证了RevisEval在减少偏差、降低推理成本和保证参考文本相关性方面的有效性。

🔬 方法详解

问题定义:现有的大型语言模型作为评估器(LLM-as-a-Judge)在评估文本生成质量时,虽然成本较低,但其可靠性与人工评估之间仍存在差距。一个重要的原因是缺乏合适的参考标准,传统的参考文本可能与生成文本的相关性不足,导致评估偏差。

核心思路:RevisEval的核心思路是生成与待评估的生成文本(response)相适配的参考文本。通过让LLM根据response进行修订,生成更贴合response内容的参考文本,从而提高评估的准确性和可靠性。这种方法模拟了人工评估中,评估者会根据生成文本的特点来调整评估标准的过程。

技术框架:RevisEval的整体流程如下:1) 输入:待评估的生成文本(response)。2) 响应适配参考生成:使用LLM对response进行修订,生成response-adapted reference。3) 评估:使用LLM或传统文本评估指标(如BLEU、BERTScore)结合response和response-adapted reference进行评估。

关键创新:RevisEval的关键创新在于提出了response-adapted reference的概念,并利用LLM的文本修订能力自动生成这种参考文本。与传统的固定参考文本相比,response-adapted reference能够更好地反映生成文本的特点,从而减少评估偏差。

关键设计:在生成response-adapted reference时,可以使用不同的LLM和不同的修订策略。例如,可以采用prompt engineering的方式引导LLM进行更精确的修订。此外,还可以探索不同的损失函数来优化LLM的修订过程,使其生成的参考文本更符合评估需求。具体参数设置和网络结构的选择取决于所使用的LLM和具体的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RevisEval在NLG任务和开放式指令跟随任务中,显著优于传统的无参考和基于参考的评估方法。例如,在某些任务上,RevisEval能够将LLM评估器的可靠性提升10%以上。更重要的是,RevisEval生成的参考文本能够显著提升经典文本评估指标(如BLEU和BERTScore)的性能,甚至可以与LLM作为评估器相媲美。

🎯 应用场景

RevisEval可广泛应用于各种文本生成任务的自动评估,例如机器翻译、文本摘要、对话生成、代码生成等。它能够降低人工评估的成本,提高评估效率,并为LLM的训练和优化提供更可靠的反馈信号。此外,RevisEval还可以用于评估开放式指令跟随任务,例如评估LLM是否能够按照用户的指令生成高质量的文本。

📄 摘要(原文)

With significant efforts in recent studies, LLM-as-a-Judge has become a cost-effective alternative to human evaluation for assessing text generation quality in a wide range of tasks. However, there still remains a reliability gap between LLM-as-a-Judge and human evaluation. One important reason is the lack of guided oracles in the evaluation process. Motivated by the role of reference pervasively used in classic text evaluation, we introduce RevisEval, a novel text generation evaluation paradigm via the response-adapted references. RevisEval is driven by the key observation that an ideal reference should maintain the necessary relevance to the response to be evaluated. Specifically, RevisEval leverages the text revision capabilities of large language models (LLMs) to adaptively revise the response, then treat the revised text as the reference (response-adapted reference) for the subsequent evaluation. Extensive experiments demonstrate that RevisEval outperforms traditional reference-free and reference-based evaluation paradigms that use LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks. More importantly, our response-adapted references can further boost the classical text metrics, e.g., BLEU and BERTScore, compared to traditional references and even rival the LLM-as-a-Judge. A detailed analysis is also conducted to confirm RevisEval's effectiveness in bias reduction, the impact of inference cost, and reference relevance.