Finding Blind Spots in Evaluator LLMs with Interpretable Checklists

📄 arXiv: 2406.13439v2 📥 PDF

作者: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Sshubam Verma, Mitesh M. Khapra

分类: cs.CL

发布日期: 2024-06-19 (更新: 2024-11-26)

备注: EMNLP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出FBI框架,揭示评估LLM在事实性、推理等能力评估上的盲点。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 可解释性 事实准确性 指令遵循 连贯性 推理能力 扰动分析

📋 核心要点

  1. 现有评估LLM的方法缺乏对特定能力(如事实性、推理等)的细粒度评估,难以发现其盲点。
  2. FBI框架通过引入可解释的扰动,系统性地测试评估LLM在识别特定能力下降方面的能力。
  3. 实验表明,现有评估LLM在识别质量下降方面存在显著缺陷,超过50%的案例未能识别。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于评估其他LLM的文本输出,从而影响排行榜和开发决策。然而,人们对这些评估的准确性以及可能产生的误导性结论仍然存在担忧。本文研究了LLM作为文本生成任务评估者的有效性。我们提出了FBI,这是一个新颖的框架,旨在检验评估LLM在评估其他LLM的四个关键能力方面的熟练程度:事实准确性、指令遵循、长篇写作的连贯性和推理能力。通过在LLM生成的答案中引入有针对性的扰动,这些扰动会明显影响这些关键能力之一,我们测试评估LLM是否可以检测到这些质量下降。通过创建总共2400个受扰动答案,涵盖22个扰动类别,我们使用不同的评估策略对文献中常用的五个著名LLM进行了全面研究。我们的研究结果揭示了当前评估LLM的重大缺陷,平均而言,它们在超过50%的案例中未能识别出质量下降。单答案和成对评估表现出明显的局限性,而基于参考的评估表现出相对较好的性能。这些结果强调了当前评估LLM的不可靠性,并提倡在实际应用中谨慎实施。代码和数据可在https://github.com/AI4Bharat/FBI获取。

🔬 方法详解

问题定义:论文旨在解决现有评估LLM在评估其他LLM生成文本质量时存在的盲点问题。现有方法通常依赖于整体性的评估指标,难以针对特定能力(如事实准确性、指令遵循、连贯性和推理能力)进行细粒度的评估,从而可能导致对LLM能力的误判。

核心思路:论文的核心思路是通过引入可解释的扰动来系统性地测试评估LLM在识别特定能力下降方面的能力。具体来说,作者设计了一系列针对性的扰动,这些扰动会明确影响LLM生成文本的某个特定能力,然后观察评估LLM是否能够准确地识别出这些扰动所导致的质量下降。

技术框架:FBI框架包含以下几个主要步骤:1) 选择需要评估的LLM和评估LLM;2) 使用LLM生成原始文本;3) 对原始文本进行扰动,生成一系列受扰动的文本,每个扰动针对一个特定的能力;4) 使用评估LLM对原始文本和受扰动的文本进行评估;5) 分析评估LLM的评估结果,确定其在识别不同类型扰动方面的能力。

关键创新:该论文的关键创新在于提出了一个可解释的评估框架,该框架能够针对特定能力对评估LLM进行细粒度的评估。通过引入可解释的扰动,作者能够清晰地了解评估LLM在识别不同类型质量问题方面的能力,从而揭示其盲点。

关键设计:论文设计了22种不同类型的扰动,这些扰动涵盖了事实准确性、指令遵循、连贯性和推理能力等四个关键方面。例如,对于事实准确性,作者引入了“添加错误信息”和“替换实体”等扰动;对于指令遵循,作者引入了“忽略指令”和“违反约束”等扰动。此外,论文还比较了不同的评估策略,包括单答案评估、成对评估和基于参考的评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有评估LLM在识别质量下降方面存在显著缺陷,平均而言,它们在超过50%的案例中未能识别出质量下降。单答案和成对评估表现出明显的局限性,而基于参考的评估表现出相对较好的性能。这些结果突出了当前评估LLM的不可靠性。

🎯 应用场景

该研究成果可应用于LLM的开发和评估流程中,帮助开发者更好地了解评估LLM的局限性,并设计更可靠的评估方法。此外,该框架还可以用于指导LLM的改进,使其在特定能力方面更加强大。该研究对于构建更安全、更可靠的AI系统具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly relied upon to evaluate text outputs of other LLMs, thereby influencing leaderboards and development decisions. However, concerns persist over the accuracy of these assessments and the potential for misleading conclusions. In this work, we investigate the effectiveness of LLMs as evaluators for text generation tasks. We propose FBI, a novel framework designed to examine the proficiency of Evaluator LLMs in assessing four critical abilities in other LLMs: factual accuracy, instruction following, coherence in long-form writing, and reasoning proficiency. By introducing targeted perturbations in answers generated by LLMs, that clearly impact one of these key capabilities, we test whether an Evaluator LLM can detect these quality drops. By creating a total of 2400 perturbed answers covering 22 perturbation categories, we conduct a comprehensive study using different evaluation strategies on five prominent LLMs commonly used as evaluators in the literature. Our findings reveal significant shortcomings in current Evaluator LLMs, which failed to identify quality drops in over 50\% of cases on average. Single-answer and pairwise evaluations demonstrated notable limitations, whereas reference-based evaluations showed comparatively better performance. These results underscore the unreliable nature of current Evaluator LLMs and advocate for cautious implementation in practical applications. Code and data are available at https://github.com/AI4Bharat/FBI.