Are LLM-Judges Robust to Expressions of Uncertainty? Investigating the effect of Epistemic Markers on LLM-based Evaluation

📄 arXiv: 2410.20774v2 📥 PDF

作者: Dongryeol Lee, Yerin Hwang, Yongil Kim, Joonsuk Park, Kyomin Jung

分类: cs.CL

发布日期: 2024-10-28 (更新: 2025-04-30)

备注: NAACL 2025 Oral (21 pages, 6 figures, 15 tables)


💡 一句话要点

发现LLM评判者对不确定性表达不鲁棒:存在对认知标记的负偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评判者 认知标记 不确定性表达 鲁棒性评估 偏差分析

📋 核心要点

  1. 现有研究缺乏对LLM生成内容中认知标记的评估,可能导致LLM评判者产生偏差。
  2. 论文提出EMBER基准,用于评估LLM评判者对认知标记的鲁棒性,特别是对不确定性表达的敏感度。
  3. 实验表明,包括GPT-4o在内的LLM评判者对认知标记存在负偏见,影响了其评估的客观性。

📝 摘要(中文)

为了符合诚实原则,训练大型语言模型(LLM)生成包含认知标记的输出的努力日益增加。然而,在存在认知标记的情况下进行评估在很大程度上被忽视,这提出了一个关键问题:在LLM生成的输出中使用认知标记是否会导致意想不到的负面后果?为了解决这个问题,我们提出了EMBER,这是一个旨在评估LLM评判者在单次和成对评估设置中对认知标记的鲁棒性的基准。我们基于EMBER的评估结果表明,所有测试的LLM评判者,包括GPT-4o,在存在认知标记的情况下都表现出显著的鲁棒性不足。具体来说,我们观察到对认知标记的负偏见,以及对表达不确定性的标记的更强偏见。这表明LLM评判者受到这些标记的影响,并且没有仅仅关注内容的正确性。

🔬 方法详解

问题定义:论文旨在解决LLM评判者在评估包含认知标记(特别是表达不确定性的标记)的LLM生成内容时,是否会受到这些标记的影响,从而产生偏差的问题。现有方法忽略了认知标记对LLM评判者鲁棒性的影响,可能导致不准确或不公平的评估结果。

核心思路:核心思路是构建一个专门的基准(EMBER),用于系统性地评估LLM评判者在面对包含认知标记的文本时的表现。通过控制认知标记的存在与否以及类型,来观察LLM评判者的评估结果是否受到显著影响。这样可以量化LLM评判者对认知标记的敏感程度。

技术框架:EMBER基准包含单次评估和成对评估两种设置。在单次评估中,LLM评判者需要对包含或不包含认知标记的单个文本进行评分。在成对评估中,LLM评判者需要比较两个文本,其中一个包含认知标记,另一个不包含,或者包含不同类型的认知标记。通过分析LLM评判者在不同情况下的评分和偏好,来评估其鲁棒性。

关键创新:关键创新在于提出了一个专门用于评估LLM评判者对认知标记鲁棒性的基准。与以往关注LLM生成能力的研究不同,该研究关注LLM的评估能力,并揭示了LLM评判者可能存在的认知偏差。

关键设计:EMBER基准的关键设计包括:1) 精心设计的包含不同类型认知标记的文本数据集;2) 单次和成对评估两种评估模式,以全面评估LLM评判者的鲁棒性;3) 采用多种LLM评判者(包括GPT-4o)进行评估,以验证结果的普遍性。论文没有详细说明损失函数或网络结构,因为重点在于评估而非训练。

📊 实验亮点

实验结果表明,所有测试的LLM评判者(包括GPT-4o)都对认知标记表现出负偏见,尤其对表达不确定性的标记更为敏感。这意味着LLM评判者的评估结果并非完全基于内容的正确性,而是受到了认知标记的影响。该发现强调了在LLM评估中考虑认知偏差的重要性。

🎯 应用场景

该研究成果可应用于改进LLM评估流程,提高LLM评判者的客观性和公正性。通过减轻LLM评判者对认知标记的偏见,可以更准确地评估LLM生成内容的质量,从而促进LLM技术的可靠发展。此外,该研究也为开发更鲁棒的LLM评判系统提供了指导。

📄 摘要(原文)

In line with the principle of honesty, there has been a growing effort to train large language models (LLMs) to generate outputs containing epistemic markers. However, evaluation in the presence of epistemic markers has been largely overlooked, raising a critical question: Could the use of epistemic markers in LLM-generated outputs lead to unintended negative consequences? To address this, we present EMBER, a benchmark designed to assess the robustness of LLM-judges to epistemic markers in both single and pairwise evaluation settings. Our findings, based on evaluations using EMBER, reveal that all tested LLM-judges, including GPT-4o, show a notable lack of robustness in the presence of epistemic markers. Specifically, we observe a negative bias toward epistemic markers, with a stronger bias against markers expressing uncertainty. This suggests that LLM-judges are influenced by the presence of these markers and do not focus solely on the correctness of the content.