Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals
作者: Yo Ehara
分类: cs.CL, cs.CY
发布日期: 2026-05-12
备注: Accepted to Educational Data Mining (EDM) 2026 (Poster/Demo Track)
💡 一句话要点
提出一种无需生成概率信号的LLM难度评估不一致性预测方法
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM评估 难度评估 不一致性预测 几何一致性 教育材料
📋 核心要点
- 现有LLM难度评估依赖生成概率信号,但收集和跨模型比较困难。
- 利用难度等级的有序性,通过嵌入空间几何一致性预测评估不一致。
- 实验表明,该方法在预测人类评估不一致性方面优于基于概率的基线。
📝 摘要(中文)
利用大型语言模型(LLM)自动生成教育材料日益普及,但为这些材料分配难度级别仍然需要大量人工。LLM-as-a-Judge因此备受关注,然而与人类评估者意见不一致仍然是一个主要挑战。我们提出了一种预测LLM生成的难度评级可能与人类评估者不一致的方法,以便将这些情况送去重新评级。与先前的方法不同,我们的方法不依赖于生成时的概率信号,这些信号必须在评级生成期间收集,并且通常难以在不同的LLM之间进行比较。相反,利用难度是一个有序尺度的特性,我们使用一个单独的嵌入空间(例如ModernBERT),并基于评级集的几何一致性来识别不一致的候选对象。在基于英语CEFR的句子难度评估实验中,使用GPT-OSS-120B和Qwen3-235B-A22B表明,所提出的方法在预测与人类评估者的不一致性方面,比基于概率的基线方法实现了更高的AUC。
🔬 方法详解
问题定义:论文旨在解决LLM作为评估者在教育材料难度评估中,与人类评估者产生不一致的问题。现有方法主要依赖于LLM生成时的概率信号来预测这种不一致性,但这些概率信号的收集需要在生成时进行,并且不同LLM之间的概率信号难以直接比较,限制了方法的通用性和易用性。
核心思路:论文的核心思路是利用难度等级的有序性,将难度评估问题转化为一个几何一致性问题。如果LLM给出的难度等级与人类的认知存在偏差,那么在嵌入空间中,这些等级之间的关系可能会出现不一致。通过检测这种几何不一致性,可以预测哪些LLM的评估结果可能与人类评估者存在分歧。
技术框架:该方法主要包含以下几个阶段:1) 使用LLM生成难度评级;2) 使用一个独立的嵌入模型(如ModernBERT)将文本转换为嵌入向量;3) 基于嵌入向量计算评级集的几何一致性;4) 使用几何一致性指标预测与人类评估者不一致的候选对象。整体流程无需访问LLM的生成概率。
关键创新:该方法最重要的创新点在于它避免了对LLM生成概率信号的依赖,而是利用难度等级的有序性,通过嵌入空间的几何一致性来预测评估不一致性。这使得该方法更加通用,可以应用于不同的LLM,并且不需要在生成时收集额外的概率信息。
关键设计:关键设计包括:1) 选择合适的嵌入模型,能够准确地捕捉文本的语义信息;2) 设计合适的几何一致性指标,能够有效地检测评级集中的不一致性;3) 确定合适的阈值,用于区分一致和不一致的候选对象。论文中使用了AUC作为评估指标,并与基于概率的基线方法进行了比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在英语CEFR句子难度评估任务中,使用GPT-OSS-120B和Qwen3-235B-A22B作为评估LLM时,预测与人类评估者不一致性的AUC优于基于概率的基线方法。这表明该方法能够有效地预测LLM评估结果中的偏差,并且具有较好的泛化能力。
🎯 应用场景
该研究成果可应用于自动教育材料难度分级、LLM评估结果校正、以及其他需要人工评估的场景。通过预测LLM评估结果与人类认知的不一致性,可以减少人工审核工作量,提高评估效率,并提升教育材料的质量和适用性。未来可扩展到其他类型的评估任务,例如文本质量评估、情感分析等。
📄 摘要(原文)
Automatic generation of educational materials using large language models (LLMs) is becoming increasingly common, but assigning difficulty levels to such materials still requires substantial human effort. LLM-as-a-Judge has therefore attracted attention, yet disagreement with human raters remains a major challenge. We propose a method for predicting which LLM-generated difficulty ratings are likely to disagree with human raters, so that such cases can be sent for re-rating. Unlike prior approaches, our method does not rely on generation-time probability signals, which must be collected during rating generation and are often difficult to compare across LLMs. Instead, exploiting the fact that difficulty is an ordinal scale, we use a separate embedding space, such as ModernBERT, and identify disagreement candidates based on the geometric consistency of the rating set. Experiments on English CEFR-based sentence difficulty assessment with GPT-OSS-120B and Qwen3-235B-A22B showed that the proposed method achieved higher AUC for predicting disagreement with human raters than probability-based baselines.