Are LLM-Judges Robust to Expressions of Uncertainty? Investigating the effect of Epistemic Markers on LLM-based Evaluation

作者: Dongryeol Lee, Yerin Hwang, Yongil Kim, Joonsuk Park, Kyomin Jung

分类: cs.CL

发布日期: 2024-10-28 (更新: 2025-04-30)

备注: NAACL 2025 Oral (21 pages, 6 figures, 15 tables)

💡 一句话要点

发现LLM评判者对不确定性表达不鲁棒：存在对认知标记的负偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM评判者 认知标记 不确定性表达 鲁棒性评估 偏差分析

📋 核心要点

现有研究缺乏对LLM生成内容中认知标记的评估，可能导致LLM评判者产生偏差。
论文提出EMBER基准，用于评估LLM评判者对认知标记的鲁棒性，特别是对不确定性表达的敏感度。
实验表明，包括GPT-4o在内的LLM评判者对认知标记存在负偏见，影响了其评估的客观性。

📝 摘要（中文）

为了符合诚实原则，训练大型语言模型（LLM）生成包含认知标记的输出的努力日益增加。然而，在存在认知标记的情况下进行评估在很大程度上被忽视，这提出了一个关键问题：在LLM生成的输出中使用认知标记是否会导致意想不到的负面后果？为了解决这个问题，我们提出了EMBER，这是一个旨在评估LLM评判者在单次和成对评估设置中对认知标记的鲁棒性的基准。我们基于EMBER的评估结果表明，所有测试的LLM评判者，包括GPT-4o，在存在认知标记的情况下都表现出显著的鲁棒性不足。具体来说，我们观察到对认知标记的负偏见，以及对表达不确定性的标记的更强偏见。这表明LLM评判者受到这些标记的影响，并且没有仅仅关注内容的正确性。

🔬 方法详解

问题定义：论文旨在解决LLM评判者在评估包含认知标记（特别是表达不确定性的标记）的LLM生成内容时，是否会受到这些标记的影响，从而产生偏差的问题。现有方法忽略了认知标记对LLM评判者鲁棒性的影响，可能导致不准确或不公平的评估结果。

核心思路：核心思路是构建一个专门的基准（EMBER），用于系统性地评估LLM评判者在面对包含认知标记的文本时的表现。通过控制认知标记的存在与否以及类型，来观察LLM评判者的评估结果是否受到显著影响。这样可以量化LLM评判者对认知标记的敏感程度。

技术框架：EMBER基准包含单次评估和成对评估两种设置。在单次评估中，LLM评判者需要对包含或不包含认知标记的单个文本进行评分。在成对评估中，LLM评判者需要比较两个文本，其中一个包含认知标记，另一个不包含，或者包含不同类型的认知标记。通过分析LLM评判者在不同情况下的评分和偏好，来评估其鲁棒性。

关键创新：关键创新在于提出了一个专门用于评估LLM评判者对认知标记鲁棒性的基准。与以往关注LLM生成能力的研究不同，该研究关注LLM的评估能力，并揭示了LLM评判者可能存在的认知偏差。

关键设计：EMBER基准的关键设计包括：1) 精心设计的包含不同类型认知标记的文本数据集；2) 单次和成对评估两种评估模式，以全面评估LLM评判者的鲁棒性；3) 采用多种LLM评判者（包括GPT-4o）进行评估，以验证结果的普遍性。论文没有详细说明损失函数或网络结构，因为重点在于评估而非训练。

📊 实验亮点

实验结果表明，所有测试的LLM评判者（包括GPT-4o）都对认知标记表现出负偏见，尤其对表达不确定性的标记更为敏感。这意味着LLM评判者的评估结果并非完全基于内容的正确性，而是受到了认知标记的影响。该发现强调了在LLM评估中考虑认知偏差的重要性。

🎯 应用场景

该研究成果可应用于改进LLM评估流程，提高LLM评判者的客观性和公正性。通过减轻LLM评判者对认知标记的偏见，可以更准确地评估LLM生成内容的质量，从而促进LLM技术的可靠发展。此外，该研究也为开发更鲁棒的LLM评判系统提供了指导。

📄 摘要（原文）

In line with the principle of honesty, there has been a growing effort to train large language models (LLMs) to generate outputs containing epistemic markers. However, evaluation in the presence of epistemic markers has been largely overlooked, raising a critical question: Could the use of epistemic markers in LLM-generated outputs lead to unintended negative consequences? To address this, we present EMBER, a benchmark designed to assess the robustness of LLM-judges to epistemic markers in both single and pairwise evaluation settings. Our findings, based on evaluations using EMBER, reveal that all tested LLM-judges, including GPT-4o, show a notable lack of robustness in the presence of epistemic markers. Specifically, we observe a negative bias toward epistemic markers, with a stronger bias against markers expressing uncertainty. This suggests that LLM-judges are influenced by the presence of these markers and do not focus solely on the correctness of the content.

Are LLM-Judges Robust to Expressions of Uncertainty? Investigating the effect of Epistemic Markers on LLM-based Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理