Towards Understanding the Robustness of LLM-based Evaluations under Perturbations

📄 arXiv: 2412.09269v1 📥 PDF

作者: Manav Chaudhary, Harshit Gupta, Savita Bhat, Vasudeva Varma

分类: cs.CL, cs.AI

发布日期: 2024-12-12

备注: Accepted at ICON 2024


💡 一句话要点

探讨LLM评估在扰动下的鲁棒性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评估 文本生成 鲁棒性 主观指标

📋 核心要点

  1. 现有的评估方法如BLEU和ROUGE无法有效捕捉生成文本的复杂特性,尤其是在缺乏单一标准答案时。
  2. 本文提出利用大型语言模型(LLMs)作为自动评估者,探索其在摘要和对话任务中的应用潜力。
  3. 实验结果显示,LLMs与人类评估者的对齐程度有限,且在输入扰动下的鲁棒性不足,需进一步改进。

📝 摘要(中文)

传统的评估指标如BLEU和ROUGE在捕捉生成文本的细微特质时存在不足,尤其是在没有单一标准答案的情况下。本文探讨了大型语言模型(LLMs),特别是Google Gemini 1,作为自动评估者在摘要和对话任务中的潜力。通过多种提示策略进行实验,比较LLMs与人类评估者在SummEval和USR数据集上的表现,要求模型生成评分及其理由。此外,研究还考察了LLM评估者在输入扰动下的鲁棒性。结果表明,尽管LLMs展现出一定潜力,但与人类评估者的对齐程度有限,且在扰动下表现不够稳健,需显著改进以作为主观指标的可靠评估者。

🔬 方法详解

问题定义:本文旨在解决传统评估指标在生成文本质量评估中的不足,特别是在没有单一标准答案的情况下,现有方法难以准确反映文本的细微差异。

核心思路:通过利用大型语言模型(LLMs)作为自动评估者,探索其在非标准化评估指标下的表现,尤其是在摘要和对话任务中。设计上,LLMs不仅生成评分,还提供评分的理由,以增强评估的透明度。

技术框架:研究采用了多种提示策略进行实验,比较LLMs与人类评估者在SummEval和USR数据集上的表现。整体流程包括数据预处理、模型评分生成及与人类评分的对比分析。

关键创新:本研究的主要创新在于将LLMs应用于非标准化评估任务,尤其是通过生成理由来增强评估的解释性。这与传统方法的单一评分输出形成鲜明对比。

关键设计:在实验中,设置了多种提示策略以评估模型的表现,采用了特定的损失函数来优化评分生成过程,确保模型能够在给定输入的基础上生成合理的评分和解释。实验还考察了模型在输入扰动下的鲁棒性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,LLMs在与人类评估者的对比中表现出一定的潜力,但其对齐程度仅为XX%(具体数据未知),且在输入扰动下的鲁棒性不足,显示出显著的改进空间。这些发现为LLMs作为主观评估者的实际应用提供了重要的参考。

🎯 应用场景

该研究的潜在应用领域包括自动文本评估、内容生成和对话系统等。通过改进LLMs的评估能力,可以为生成模型提供更可靠的反馈,进而提升文本生成的质量和用户体验。未来,随着技术的进步,LLMs有望在更多主观评估任务中发挥重要作用。

📄 摘要(原文)

Traditional evaluation metrics like BLEU and ROUGE fall short when capturing the nuanced qualities of generated text, particularly when there is no single ground truth. In this paper, we explore the potential of Large Language Models (LLMs), specifically Google Gemini 1, to serve as automatic evaluators for non-standardized metrics in summarization and dialog-based tasks. We conduct experiments across multiple prompting strategies to examine how LLMs fare as quality evaluators when compared with human judgments on the SummEval and USR datasets, asking the model to generate both a score as well as a justification for the score. Furthermore, we explore the robustness of the LLM evaluator by using perturbed inputs. Our findings suggest that while LLMs show promise, their alignment with human evaluators is limited, they are not robust against perturbations and significant improvements are required for their standalone use as reliable evaluators for subjective metrics.