Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals

作者: Yo Ehara

分类: cs.CL, cs.CY

发布日期: 2026-05-12

备注: Accepted to Educational Data Mining (EDM) 2026 (Poster/Demo Track)

💡 一句话要点

提出一种无需生成概率信号的LLM难度评估不一致性预测方法

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM评估 难度评估 不一致性预测 几何一致性 教育材料

📋 核心要点

现有LLM难度评估依赖生成概率信号，但收集和跨模型比较困难。
利用难度等级的有序性，通过嵌入空间几何一致性预测评估不一致。
实验表明，该方法在预测人类评估不一致性方面优于基于概率的基线。

📝 摘要（中文）

利用大型语言模型（LLM）自动生成教育材料日益普及，但为这些材料分配难度级别仍然需要大量人工。LLM-as-a-Judge因此备受关注，然而与人类评估者意见不一致仍然是一个主要挑战。我们提出了一种预测LLM生成的难度评级可能与人类评估者不一致的方法，以便将这些情况送去重新评级。与先前的方法不同，我们的方法不依赖于生成时的概率信号，这些信号必须在评级生成期间收集，并且通常难以在不同的LLM之间进行比较。相反，利用难度是一个有序尺度的特性，我们使用一个单独的嵌入空间（例如ModernBERT），并基于评级集的几何一致性来识别不一致的候选对象。在基于英语CEFR的句子难度评估实验中，使用GPT-OSS-120B和Qwen3-235B-A22B表明，所提出的方法在预测与人类评估者的不一致性方面，比基于概率的基线方法实现了更高的AUC。

🔬 方法详解

问题定义：论文旨在解决LLM作为评估者在教育材料难度评估中，与人类评估者产生不一致的问题。现有方法主要依赖于LLM生成时的概率信号来预测这种不一致性，但这些概率信号的收集需要在生成时进行，并且不同LLM之间的概率信号难以直接比较，限制了方法的通用性和易用性。

核心思路：论文的核心思路是利用难度等级的有序性，将难度评估问题转化为一个几何一致性问题。如果LLM给出的难度等级与人类的认知存在偏差，那么在嵌入空间中，这些等级之间的关系可能会出现不一致。通过检测这种几何不一致性，可以预测哪些LLM的评估结果可能与人类评估者存在分歧。

技术框架：该方法主要包含以下几个阶段：1) 使用LLM生成难度评级；2) 使用一个独立的嵌入模型（如ModernBERT）将文本转换为嵌入向量；3) 基于嵌入向量计算评级集的几何一致性；4) 使用几何一致性指标预测与人类评估者不一致的候选对象。整体流程无需访问LLM的生成概率。

关键创新：该方法最重要的创新点在于它避免了对LLM生成概率信号的依赖，而是利用难度等级的有序性，通过嵌入空间的几何一致性来预测评估不一致性。这使得该方法更加通用，可以应用于不同的LLM，并且不需要在生成时收集额外的概率信息。

关键设计：关键设计包括：1) 选择合适的嵌入模型，能够准确地捕捉文本的语义信息；2) 设计合适的几何一致性指标，能够有效地检测评级集中的不一致性；3) 确定合适的阈值，用于区分一致和不一致的候选对象。论文中使用了AUC作为评估指标，并与基于概率的基线方法进行了比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在英语CEFR句子难度评估任务中，使用GPT-OSS-120B和Qwen3-235B-A22B作为评估LLM时，预测与人类评估者不一致性的AUC优于基于概率的基线方法。这表明该方法能够有效地预测LLM评估结果中的偏差，并且具有较好的泛化能力。

🎯 应用场景

该研究成果可应用于自动教育材料难度分级、LLM评估结果校正、以及其他需要人工评估的场景。通过预测LLM评估结果与人类认知的不一致性，可以减少人工审核工作量，提高评估效率，并提升教育材料的质量和适用性。未来可扩展到其他类型的评估任务，例如文本质量评估、情感分析等。

📄 摘要（原文）

Automatic generation of educational materials using large language models (LLMs) is becoming increasingly common, but assigning difficulty levels to such materials still requires substantial human effort. LLM-as-a-Judge has therefore attracted attention, yet disagreement with human raters remains a major challenge. We propose a method for predicting which LLM-generated difficulty ratings are likely to disagree with human raters, so that such cases can be sent for re-rating. Unlike prior approaches, our method does not rely on generation-time probability signals, which must be collected during rating generation and are often difficult to compare across LLMs. Instead, exploiting the fact that difficulty is an ordinal scale, we use a separate embedding space, such as ModernBERT, and identify disagreement candidates based on the geometric consistency of the rating set. Experiments on English CEFR-based sentence difficulty assessment with GPT-OSS-120B and Qwen3-235B-A22B showed that the proposed method achieved higher AUC for predicting disagreement with human raters than probability-based baselines.

Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理