Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time
作者: Jiazheng Li, Yuxiang Zhou, Junru Lu, Gladys Tyen, Lin Gui, Cesare Aloisi, Yulan He
分类: cs.CL
发布日期: 2025-02-26 (更新: 2025-09-28)
备注: Accepted at EMNLP 2025 Oral
🔗 代码/项目: GITHUB
💡 一句话要点
提出DARS双模型反射评分框架,提升自动学生答案评分的性能与可解释性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动学生答案评分 双模型 反射学习 可解释性AI 对比学习
📋 核心要点
- 现有偏好优化方法在ASAS中缺乏透明性,难以解释评分依据,限制了其应用。
- DARS通过对比反射合成流程生成精确反馈,并训练专门的评论模型进行有效反思。
- 实验表明,DARS在ASAS任务中显著优于现有基线,提升了性能和可解释性。
📝 摘要(中文)
尽管偏好优化方法提升了大语言模型(LLMs)的推理性能,但它们通常缺乏对推理结果偏好的透明解释。这一局限在自动学生答案评分(ASAS)中尤为关键,因为可解释性对于评估结果的合理性至关重要。言语强化学习提供了生成显式反思的潜力,但它倾向于产生肤浅的批评,反而会损害评估性能。现有的LLMs也难以可靠地检测ASAS任务中细微的推理错误。此外,手动识别中间推理错误既昂贵又难以扩展。为了应对这些挑战,我们引入了一种对比反射合成流程,通过识别结构化推理图路径中的差异来生成精确的言语反馈。利用这些合成反射数据,我们提出了DARS,一个双模型反射评分框架,其中包含一个专门用于有效反射的评论模型。DARS取得了优异的性能,并在所有评估指标上始终优于现有的ASAS基线。广泛的实验进一步提供了关于反射数据的价值、框架设计以及DARS的缩放行为的新见解。我们在https://github.com/lijiazheng99/DARS发布了DARS代码。
🔬 方法详解
问题定义:论文旨在解决自动学生答案评分(ASAS)中现有方法缺乏可解释性以及难以检测细微推理错误的问题。现有方法,特别是基于偏好优化的方法,虽然提升了性能,但无法解释为什么一个答案优于另一个,这在需要解释性来证明评估结果合理的ASAS场景中是不可接受的。此外,手动标注中间推理错误成本高昂且难以扩展。
核心思路:论文的核心思路是利用双模型架构,其中一个模型负责生成答案,另一个模型(Critic模型)负责对答案进行反思和批判,从而提高评分的准确性和可解释性。通过对比不同推理路径,合成高质量的反射数据,并用这些数据训练Critic模型,使其能够有效地识别和纠正推理错误。
技术框架:DARS框架包含以下主要模块:1) 对比反射合成流程:通过比较结构化推理图路径中的差异,自动生成精确的言语反馈,作为训练数据。2) 双模型架构:包括一个生成答案的模型和一个专门训练用于反思的Critic模型。3) 反射评分:Critic模型对生成答案进行评估,提供反馈,并最终给出评分。
关键创新:论文的关键创新在于:1) 对比反射合成流程:自动生成高质量的反射数据,避免了手动标注的成本和困难。2) 双模型反射评分框架:通过专门训练的Critic模型,提高了反射的有效性和评分的准确性。3) 结构化推理图路径差异分析:通过比较不同推理路径,更精确地识别推理错误。
关键设计:论文的关键设计包括:1) 反射数据的生成方式:通过对比结构化推理图路径,确保反射数据的准确性和针对性。2) Critic模型的训练方式:使用合成的反射数据进行训练,使其能够有效地识别和纠正推理错误。3) 双模型之间的交互方式:Critic模型对生成答案进行评估,提供反馈,并最终给出评分,实现有效的反射评分。
🖼️ 关键图片
📊 实验亮点
DARS在ASAS任务中取得了显著的性能提升,在所有评估指标上均优于现有基线。实验结果表明,DARS能够有效地利用反射数据,提高评分的准确性和可解释性。此外,实验还揭示了反射数据的价值、框架设计以及DARS的缩放行为等重要信息。
🎯 应用场景
DARS框架可应用于各种需要自动评估和反馈的教育场景,例如在线作业批改、自动考试评分等。其可解释性强的特点,有助于学生理解错误原因,从而提高学习效果。此外,该方法还可以扩展到其他需要可解释性AI决策的领域,如医疗诊断、金融风险评估等。
📄 摘要(原文)
Although preference optimization methods have improved reasoning performance in Large Language Models (LLMs), they often lack transparency regarding why one reasoning outcome is preferred over another. This limitation is especially critical in Automated Student Answer Scoring (ASAS), where explainability is essential to justify assessment outcomes. Verbal reinforcement learning offers the potential to generate explicit reflection, but it tends to produce superficial critiques that can harm assessment performance. Existing LLMs also struggle to reliably detect subtle reasoning errors in ASAS tasks. Moreover, manually identifying intermediate reasoning errors is expensive and difficult to scale. To address these challenges, we introduce a contrastive reflection synthesis pipeline that generates precise verbal feedback by identifying discrepancies in structure reasoning graph paths. Leveraging these synthetic reflection data, we propose DARS, a Dual-model Reflective Scoring framework featuring a dedicated Critic model trained for effective reflection. DARS achieves strong performance and consistently outperforms existing ASAS baselines across all evaluation metrics. Extensive experiments further provide novel insights into the value of reflection data, framework design, and the scaling behavior of DARS. We release the DARS code at https://github.com/lijiazheng99/DARS.