Automated Essay Scoring Incorporating Annotations from Automated Feedback Systems

📄 arXiv: 2505.22771v2 📥 PDF

作者: Christopher Ormerod

分类: cs.CL, cs.AI

发布日期: 2025-05-28 (更新: 2025-09-02)

备注: 10 pages, AIME-Con Conference Submission


💡 一句话要点

通过整合自动反馈系统的标注,提升自动作文评分的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 自然语言处理 大型语言模型 反馈驱动 论证要素

📋 核心要点

  1. 现有自动作文评分系统缺乏对作文内在质量的细粒度理解,难以准确评估论证结构和语言规范性。
  2. 本研究提出将自动反馈系统的标注融入评分流程,利用拼写语法错误和论证要素标注增强模型对作文的理解。
  3. 实验结果表明,通过整合标注信息,基于编码器的大型语言模型在自动作文评分任务上取得了性能提升。

📝 摘要(中文)

本研究展示了将面向反馈的标注整合到评分流程中,如何提高自动作文评分(AES)的准确性。该方法使用Persuasive Essays for Rating, Selecting, and Understanding Argumentative and Discourse Elements (PERSUADE)语料库进行验证。我们整合了两种类型的反馈驱动标注:识别拼写和语法错误的标注,以及突出论证要素的标注。为了说明该方法如何在实际场景中应用,我们使用两个LLM来生成标注——一个用于拼写校正的生成式语言模型和一个经过训练的基于编码器的token分类器,用于识别和标记论证要素。通过将标注整合到评分过程中,我们展示了使用微调为分类器的基于编码器的大型语言模型在性能方面的改进。

🔬 方法详解

问题定义:自动作文评分(AES)旨在自动评估作文质量,但现有方法在捕捉作文的论证结构、语言规范性等方面存在不足,导致评分准确性受限。特别是,缺乏对拼写、语法错误以及论证要素的有效识别和利用。

核心思路:本研究的核心思路是将自动反馈系统生成的标注信息融入到AES的评分流程中。通过引入拼写和语法错误标注以及论证要素标注,增强模型对作文内在质量的理解,从而提高评分的准确性。这种方法旨在弥补传统AES方法对作文细粒度特征理解的不足。

技术框架:整体框架包含以下几个主要步骤:1) 使用两个LLM生成标注:一个生成式语言模型用于拼写校正,一个基于编码器的token分类器用于识别和标记论证要素。2) 将生成的标注信息与原始作文文本进行整合,形成带有标注的输入。3) 使用带有标注的输入来微调基于编码器的大型语言模型,将其训练为分类器。4) 使用微调后的模型进行自动作文评分。

关键创新:本研究的关键创新在于将自动反馈系统的标注信息显式地融入到AES的评分流程中。与传统的端到端AES方法相比,本方法通过引入外部知识(拼写、语法、论证结构)来增强模型对作文的理解,从而提高了评分的准确性。这种方法也更易于解释,因为可以分析标注信息对评分结果的影响。

关键设计:论文使用了PERSUADE语料库进行实验。拼写校正使用了生成式语言模型(具体模型未知)。论证要素识别使用了基于编码器的token分类器(具体模型未知),并针对PERSUADE语料库进行了训练。评分模型使用了基于编码器的大型语言模型(具体模型未知),并将其微调为分类器。损失函数和网络结构等技术细节在论文中未明确说明,属于未知信息。

📊 实验亮点

该研究通过将自动反馈系统的标注信息融入到自动作文评分流程中,提高了评分的准确性。具体性能提升数据和对比基线在摘要中未给出,属于未知信息。但研究表明,通过整合标注信息,基于编码器的大型语言模型在自动作文评分任务上取得了性能改进。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改系统等领域,为学生提供更准确、更个性化的作文反馈和评分。通过自动识别作文中的错误和论证要素,可以帮助学生提高写作水平,并减轻教师的批改负担。未来,该方法可扩展到其他类型的文本评估任务中。

📄 摘要(原文)

This study illustrates how incorporating feedback-oriented annotations into the scoring pipeline can enhance the accuracy of automated essay scoring (AES). This approach is demonstrated with the Persuasive Essays for Rating, Selecting, and Understanding Argumentative and Discourse Elements (PERSUADE) corpus. We integrate two types of feedback-driven annotations: those that identify spelling and grammatical errors, and those that highlight argumentative components. To illustrate how this method could be applied in real-world scenarios, we employ two LLMs to generate annotations -- a generative language model used for spell correction and an encoder-based token-classifier trained to identify and mark argumentative elements. By incorporating annotations into the scoring process, we demonstrate improvements in performance using encoder-based large language models fine-tuned as classifiers.