Rank-Then-Score: Enhancing Large Language Models for Automated Essay Scoring
作者: Yida Cai, Kun Liang, Sanwoo Lee, Qinghan Wang, Yunfang Wu
分类: cs.CL, cs.AI
发布日期: 2025-04-08
备注: 17 pages
💡 一句话要点
提出Rank-Then-Score框架,提升大语言模型在自动作文评分任务上的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动作文评分 大型语言模型 微调 排序模型 评分模型
📋 核心要点
- 现有自动作文评分(AES)方法,特别是针对中文作文的评分,效果有待提升,大语言模型在这一领域的潜力未被充分挖掘。
- 提出Rank-Then-Score (RTS) 框架,先用排序模型生成候选分数,再结合作文内容由评分模型给出最终分数。
- 在HSK和ASAP数据集上的实验表明,RTS框架在平均QWK指标上优于直接提示方法,并在中文作文评分上取得最佳效果。
📝 摘要(中文)
近年来,大型语言模型(LLMs)在各种任务中取得了显著成功。然而,它们在自动作文评分(AES)领域的潜力在很大程度上尚未被充分探索。此外,与英文数据相比,中文AES的方法发展不够完善。在本文中,我们提出了一种基于大型语言模型的微调框架Rank-Then-Score(RTS),以增强其作文评分能力。具体来说,我们使用特征丰富的微调数据来微调排序模型(Ranker),然后将排序模型的输出(以候选分数集的形式)与作文内容一起输入到评分模型(Scorer)中,以生成最终分数。在HSK和ASAP两个基准数据集上的实验结果表明,在所有LLM和数据集上,RTS在平均QWK方面始终优于直接提示(Vanilla)方法,并且在使用HSK数据集的中文作文评分方面取得了最佳性能。
🔬 方法详解
问题定义:论文旨在解决自动作文评分(AES)任务中,特别是中文作文评分中,现有方法效果不佳的问题。现有方法通常直接使用大型语言模型进行评分,未能充分利用作文的特征信息,导致评分准确性不足。
核心思路:论文的核心思路是将评分过程分解为两个阶段:排序(Rank)和评分(Score)。首先,使用排序模型从候选分数集中选择最合适的几个分数;然后,将这些候选分数与作文内容一起输入到评分模型中,由评分模型综合考虑后给出最终分数。这种方法能够更好地利用作文的特征信息,提高评分的准确性。
技术框架:RTS框架包含两个主要模块:排序模型(Ranker)和评分模型(Scorer)。首先,使用特征丰富的微调数据对排序模型进行微调,使其能够根据作文的特征对候选分数进行排序。然后,将排序模型输出的候选分数集与作文内容一起输入到评分模型中。评分模型也是基于大型语言模型进行微调的,它能够综合考虑作文内容和候选分数,给出最终的评分。
关键创新:RTS框架的关键创新在于将评分过程分解为排序和评分两个阶段,并分别使用不同的模型进行处理。这种方法能够更好地利用作文的特征信息,提高评分的准确性。与直接使用大型语言模型进行评分的方法相比,RTS框架能够更有效地利用候选分数信息,从而提高评分的准确性。
关键设计:在排序模型中,使用了特征丰富的微调数据,包括作文的长度、词汇复杂度、语法正确性等特征。排序模型的损失函数使用了pairwise ranking loss,目标是使正确的评分排在候选评分的前面。评分模型使用了交叉熵损失函数,目标是使预测的评分与真实评分尽可能接近。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RTS框架在HSK和ASAP两个基准数据集上均优于直接提示(Vanilla)方法。在HSK数据集上,RTS框架取得了最佳性能,表明其在中文作文评分方面具有显著优势。具体而言,RTS在平均QWK指标上相比Vanilla方法有显著提升,证明了其有效性。
🎯 应用场景
该研究成果可应用于在线教育平台、作文批改系统等领域,能够为学生提供更准确、更个性化的作文评分服务,减轻教师的批改负担。未来,该方法还可以扩展到其他类型的文本评分任务,例如代码评分、论文评分等。
📄 摘要(原文)
In recent years, large language models (LLMs) achieve remarkable success across a variety of tasks. However, their potential in the domain of Automated Essay Scoring (AES) remains largely underexplored. Moreover, compared to English data, the methods for Chinese AES is not well developed. In this paper, we propose Rank-Then-Score (RTS), a fine-tuning framework based on large language models to enhance their essay scoring capabilities. Specifically, we fine-tune the ranking model (Ranker) with feature-enriched data, and then feed the output of the ranking model, in the form of a candidate score set, with the essay content into the scoring model (Scorer) to produce the final score. Experimental results on two benchmark datasets, HSK and ASAP, demonstrate that RTS consistently outperforms the direct prompting (Vanilla) method in terms of average QWK across all LLMs and datasets, and achieves the best performance on Chinese essay scoring using the HSK dataset.