EDIT: Evidence-Diagnosed Intervention Training for Rule-Faithful LLM Grading
作者: Zhihao Wu, Linhai Zhang, Taiyi Wang, Runcong Zhao, Peter Andrews, Cesare Aloisi, Yulan He
分类: cs.CL
发布日期: 2026-06-04
💡 一句话要点
提出EDIT框架以解决LLM评分的可靠性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 评分系统 大规模语言模型 教育评估 强化学习 自动化评分
📋 核心要点
- 现有的评分方法在处理复杂推理任务时,难以准确识别评分过程中的错误和信念变化。
- 本文提出的EDIT框架通过两阶段训练,利用内部信号定位问题并进行局部修正,提升评分的准确性和一致性。
- 实验结果显示,EDIT在多个评分基准上均优于传统的监督微调和强化学习方法,验证了其有效性。
📝 摘要(中文)
可靠的评分不仅需要准确的分数预测,还需基于评分标准和学生答案的证据。现有的信用分配和干预方法主要针对自包含的推理任务,难以识别评分推理中的错误或模型对最终分数的信念变化。本文提出了证据诊断干预训练(EDIT),一个两阶段框架,旨在训练更符合评分标准的LLM评分器。首先,EDIT-SFT利用模型内部信号定位问题推理步骤,并通过评分检查表修正这些步骤。其次,EDIT-RL通过信念引导的奖励塑造来校准评分器,惩罚有害的信念漂移,同时允许有益的探索。实验证明,EDIT在多个真实世界的评分基准上优于强监督微调和强化学习基线。
🔬 方法详解
问题定义:本文旨在解决现有LLM评分方法在复杂推理任务中的不足,特别是无法有效识别评分推理错误及信念变化的问题。
核心思路:提出EDIT框架,通过内部信号诊断问题推理步骤,并进行针对性修正,以提高评分的可靠性和一致性。
技术框架:EDIT框架分为两个主要阶段:EDIT-SFT和EDIT-RL。EDIT-SFT定位问题推理步骤并修正,EDIT-RL则通过信念引导的奖励机制进行校准。
关键创新:EDIT的创新在于结合内部状态诊断与奖励塑造,能够有效识别并修正评分过程中的问题,显著提升评分的准确性。
关键设计:在EDIT-SFT中,使用后验信念和输入基础分数来定位问题步骤;在EDIT-RL中,设计了信念引导的奖励函数,以惩罚有害的信念漂移,同时鼓励有益的探索。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EDIT在两个真实世界的多学科评分基准上均显著优于强监督微调和强化学习基线,尤其在域内和域外分割上均表现出色,验证了内部状态诊断对性能提升的关键作用。
🎯 应用场景
该研究的潜在应用领域包括教育评估、自动化评分系统和智能辅导平台。通过提高评分的可靠性,EDIT框架能够为教育工作者提供更准确的反馈,帮助学生更好地理解学习内容,未来可能在个性化学习和智能教育中发挥重要作用。
📄 摘要(原文)
Reliable rubric grading requires more than accurate score prediction. Each judgement must be grounded in the mark scheme and evidence from the student answer. Existing credit-assignment and intervention methods, primarily designed for self-contained reasoning tasks such as mathematics reasoning, struggle in this setting because they do not identify where grading reasoning goes wrong or how the model's belief about the final mark changes during reasoning. We propose Evidence-Diagnosed Intervention Training (EDIT), a two-phase framework for training more rubric-faithful LLM graders. First, EDIT-SFT locates problematic reasoning steps using internal model signals: posterior belief over the final mark and input-grounding scores. It then revises only these local steps with help from a rubric checklist. Second, EDIT-RL calibrates the grader with belief-guided reward shaping, penalising large harmful belief drifts while still allowing helpful exploration. Experiments on two real-world, multi-subject grading benchmarks demonstrate that EDIT consistently outperforms strong supervised fine-tuning and reinforcement learning baselines on both in-domain and out-of-domain splits, with ablation studies confirming that internal-state diagnostics drive these gains.