Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards

作者: Heejin Do, Sangwon Ryu, Gary Geunbae Lee

分类: cs.CL, cs.AI

发布日期: 2024-09-26

备注: EMNLP 2024

💡 一句话要点

提出基于强化学习的评分感知多重奖励自回归多特质作文评分模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动作文评分 多特质评估 强化学习 自回归模型 二次加权 Kappa

📋 核心要点

传统多特质作文评分依赖QWK，但其不可微性阻碍了神经网络的直接训练。
提出SaMRL方法，将QWK融入强化学习奖励函数，并结合均方误差惩罚，实现评分感知的训练。
采用自回归生成框架，利用token生成概率进行评分，实验表明能有效提升模型性能，尤其对先前表现差的prompt。

📝 摘要（中文）

近年来，自动作文评分（AES）的研究趋势转向评估多个特质，以提供更丰富的反馈。与典型的AES系统类似，多特质AES采用二次加权 Kappa（QWK）来衡量与人类评分者的一致性，这与评分模式紧密相关。然而，QWK的不可微性使其无法直接用于神经网络训练。本文提出了一种评分感知多重奖励强化学习（SaMRL）方法，通过设计基于QWK的奖励和均方误差惩罚，将实际评估方案整合到多特质AES的训练过程中。现有的AES强化学习应用受限于分类模型，导致性能下降，因为强化学习需要概率分布；相反，我们采用自回归评分生成框架，利用token生成概率进行稳健的多特质评分预测。实验分析表明，SaMRL有助于模型训练，显著提高了先前表现较差的prompt的评分。

🔬 方法详解

问题定义：论文旨在解决多特质自动作文评分（AES）中，如何有效利用二次加权 Kappa（QWK）指标进行模型训练的问题。QWK是衡量机器评分与人工评分一致性的重要指标，但在神经网络训练中，QWK的不可微性使得无法直接将其作为损失函数进行优化。现有方法要么忽略QWK，要么采用间接的方式，导致模型性能受限，尤其是在处理不同prompt时，表现差异较大。

核心思路：论文的核心思路是将QWK融入到强化学习的奖励函数中，从而在训练过程中直接优化与人类评分者一致性。通过设计一个评分感知的多重奖励机制，模型能够根据其评分结果获得相应的奖励，从而学习到更符合人类评分标准的策略。同时，为了解决强化学习通常需要概率分布的问题，论文采用了自回归生成框架，利用token的生成概率进行评分，避免了性能下降。

技术框架：SaMRL框架主要包含以下几个部分：1) 自回归评分生成器：负责根据输入作文生成评分；2) 强化学习Agent：根据生成器的输出，选择合适的评分策略；3) 奖励函数：基于QWK和均方误差（MSE）设计，用于评估Agent的评分效果；4) 训练过程：通过强化学习算法（如REINFORCE），不断优化Agent的策略，使其能够生成更准确的评分。

关键创新：论文的关键创新在于将QWK指标融入到强化学习的奖励函数中，实现了评分感知的训练。与传统的基于分类的强化学习方法不同，该方法采用自回归生成框架，能够更充分地利用文本信息，提高评分的准确性。此外，多重奖励机制的设计，使得模型能够同时考虑评分的准确性和一致性，从而更好地模拟人类评分者的行为。

关键设计：奖励函数的设计是关键。论文采用QWK作为主要奖励，鼓励模型生成与人类评分一致的评分。同时，为了避免模型过度拟合QWK，引入了均方误差（MSE）作为惩罚项，约束模型的评分范围。自回归生成器采用Transformer结构，利用token的生成概率进行评分。强化学习算法采用REINFORCE，通过梯度上升的方式优化Agent的策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SaMRL方法在多特质作文评分任务上取得了显著的性能提升。尤其是在处理先前表现较差的prompt时，SaMRL方法能够显著提高评分的准确性。与传统的基于分类的强化学习方法相比，SaMRL方法能够更充分地利用文本信息，提高评分的鲁棒性。具体性能数据未知，但摘要强调了对先前表现较差的prompt的评分提升。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改系统等领域，为学生提供更准确、更个性化的作文反馈。通过自动评估作文的多个特质，可以帮助学生了解自己在不同方面的优势和不足，从而有针对性地提高写作能力。此外，该技术还可以减轻教师的批改负担，提高教学效率，并为大规模的作文评估提供技术支持。

📄 摘要（原文）

Recent advances in automated essay scoring (AES) have shifted towards evaluating multiple traits to provide enriched feedback. Like typical AES systems, multi-trait AES employs the quadratic weighted kappa (QWK) to measure agreement with human raters, aligning closely with the rating schema; however, its non-differentiable nature prevents its direct use in neural network training. In this paper, we propose Scoring-aware Multi-reward Reinforcement Learning (SaMRL), which integrates actual evaluation schemes into the training process by designing QWK-based rewards with a mean-squared error penalty for multi-trait AES. Existing reinforcement learning (RL) applications in AES are limited to classification models despite associated performance degradation, as RL requires probability distributions; instead, we adopt an autoregressive score generation framework to leverage token generation probabilities for robust multi-trait score predictions. Empirical analyses demonstrate that SaMRL facilitates model training, notably enhancing scoring of previously inferior prompts.

Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理