Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards
作者: Heejin Do, Sangwon Ryu, Gary Geunbae Lee
分类: cs.CL, cs.AI
发布日期: 2024-09-26
备注: EMNLP 2024
💡 一句话要点
提出基于强化学习的评分感知多重奖励自回归多特质作文评分模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动作文评分 多特质评估 强化学习 自回归模型 二次加权 Kappa
📋 核心要点
- 传统多特质作文评分依赖QWK,但其不可微性阻碍了神经网络的直接训练。
- 提出SaMRL方法,将QWK融入强化学习奖励函数,并结合均方误差惩罚,实现评分感知的训练。
- 采用自回归生成框架,利用token生成概率进行评分,实验表明能有效提升模型性能,尤其对先前表现差的prompt。
📝 摘要(中文)
近年来,自动作文评分(AES)的研究趋势转向评估多个特质,以提供更丰富的反馈。与典型的AES系统类似,多特质AES采用二次加权 Kappa(QWK)来衡量与人类评分者的一致性,这与评分模式紧密相关。然而,QWK的不可微性使其无法直接用于神经网络训练。本文提出了一种评分感知多重奖励强化学习(SaMRL)方法,通过设计基于QWK的奖励和均方误差惩罚,将实际评估方案整合到多特质AES的训练过程中。现有的AES强化学习应用受限于分类模型,导致性能下降,因为强化学习需要概率分布;相反,我们采用自回归评分生成框架,利用token生成概率进行稳健的多特质评分预测。实验分析表明,SaMRL有助于模型训练,显著提高了先前表现较差的prompt的评分。
🔬 方法详解
问题定义:论文旨在解决多特质自动作文评分(AES)中,如何有效利用二次加权 Kappa(QWK)指标进行模型训练的问题。QWK是衡量机器评分与人工评分一致性的重要指标,但在神经网络训练中,QWK的不可微性使得无法直接将其作为损失函数进行优化。现有方法要么忽略QWK,要么采用间接的方式,导致模型性能受限,尤其是在处理不同prompt时,表现差异较大。
核心思路:论文的核心思路是将QWK融入到强化学习的奖励函数中,从而在训练过程中直接优化与人类评分者一致性。通过设计一个评分感知的多重奖励机制,模型能够根据其评分结果获得相应的奖励,从而学习到更符合人类评分标准的策略。同时,为了解决强化学习通常需要概率分布的问题,论文采用了自回归生成框架,利用token的生成概率进行评分,避免了性能下降。
技术框架:SaMRL框架主要包含以下几个部分:1) 自回归评分生成器:负责根据输入作文生成评分;2) 强化学习Agent:根据生成器的输出,选择合适的评分策略;3) 奖励函数:基于QWK和均方误差(MSE)设计,用于评估Agent的评分效果;4) 训练过程:通过强化学习算法(如REINFORCE),不断优化Agent的策略,使其能够生成更准确的评分。
关键创新:论文的关键创新在于将QWK指标融入到强化学习的奖励函数中,实现了评分感知的训练。与传统的基于分类的强化学习方法不同,该方法采用自回归生成框架,能够更充分地利用文本信息,提高评分的准确性。此外,多重奖励机制的设计,使得模型能够同时考虑评分的准确性和一致性,从而更好地模拟人类评分者的行为。
关键设计:奖励函数的设计是关键。论文采用QWK作为主要奖励,鼓励模型生成与人类评分一致的评分。同时,为了避免模型过度拟合QWK,引入了均方误差(MSE)作为惩罚项,约束模型的评分范围。自回归生成器采用Transformer结构,利用token的生成概率进行评分。强化学习算法采用REINFORCE,通过梯度上升的方式优化Agent的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SaMRL方法在多特质作文评分任务上取得了显著的性能提升。尤其是在处理先前表现较差的prompt时,SaMRL方法能够显著提高评分的准确性。与传统的基于分类的强化学习方法相比,SaMRL方法能够更充分地利用文本信息,提高评分的鲁棒性。具体性能数据未知,但摘要强调了对先前表现较差的prompt的评分提升。
🎯 应用场景
该研究成果可应用于在线教育平台、作文批改系统等领域,为学生提供更准确、更个性化的作文反馈。通过自动评估作文的多个特质,可以帮助学生了解自己在不同方面的优势和不足,从而有针对性地提高写作能力。此外,该技术还可以减轻教师的批改负担,提高教学效率,并为大规模的作文评估提供技术支持。
📄 摘要(原文)
Recent advances in automated essay scoring (AES) have shifted towards evaluating multiple traits to provide enriched feedback. Like typical AES systems, multi-trait AES employs the quadratic weighted kappa (QWK) to measure agreement with human raters, aligning closely with the rating schema; however, its non-differentiable nature prevents its direct use in neural network training. In this paper, we propose Scoring-aware Multi-reward Reinforcement Learning (SaMRL), which integrates actual evaluation schemes into the training process by designing QWK-based rewards with a mean-squared error penalty for multi-trait AES. Existing reinforcement learning (RL) applications in AES are limited to classification models despite associated performance degradation, as RL requires probability distributions; instead, we adopt an autoregressive score generation framework to leverage token generation probabilities for robust multi-trait score predictions. Empirical analyses demonstrate that SaMRL facilitates model training, notably enhancing scoring of previously inferior prompts.