Improve LLM-based Automatic Essay Scoring with Linguistic Features

📄 arXiv: 2502.09497v1 📥 PDF

作者: Zhaoyi Joey Hou, Alejandro Ciuba, Xiang Lorraine Li

分类: cs.CL, cs.AI

发布日期: 2025-02-13

备注: To be published in the workshop Innovation and Responsibility in AI-Supported Education (iRaise) at the 2025 Conference on Artificial Intelligence (AAAI)


💡 一句话要点

融合语言特征提升LLM自动作文评分性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 语言特征 特征工程 混合方法

📋 核心要点

  1. 自动作文评分面临挑战,现有方法或需大量训练资源,或性能不佳。
  2. 论文提出将语言特征融入LLM,结合两类方法的优势,提升评分性能。
  3. 实验表明,该混合方法在同领域和跨领域写作提示中均优于基线模型。

📝 摘要(中文)

自动作文评分(AES)旨在为学生作文自动评分,从而减轻教师的阅卷负担。由于写作任务的灵活性和多样性,开发一个能够处理各种写作提示的评分系统极具挑战性。现有方法通常分为两类:有监督的基于特征的方法和基于大型语言模型(LLM)的方法。有监督的基于特征的方法通常能获得更高的性能,但需要耗费大量的资源进行训练。相比之下,基于LLM的方法在推理过程中计算效率更高,但往往性能较低。本文将这两种方法结合起来,将语言特征融入到基于LLM的评分中。实验结果表明,这种混合方法在同领域和跨领域的写作提示中都优于基线模型。

🔬 方法详解

问题定义:自动作文评分(AES)旨在减轻教师的阅卷负担,但现有方法存在局限性。有监督的基于特征的方法需要大量标注数据和训练资源,难以泛化到新的写作提示。基于大型语言模型(LLM)的方法虽然计算效率高,但由于缺乏对语言特征的显式建模,评分准确率通常低于有监督方法。因此,如何兼顾评分性能和计算效率,是自动作文评分领域面临的关键问题。

核心思路:论文的核心思路是将有监督的特征工程与LLM的强大语言建模能力相结合。通过提取作文的语言特征,并将这些特征作为LLM的输入,引导LLM更好地理解作文的内容和质量,从而提高评分的准确性。这种混合方法旨在利用特征工程的优势来弥补LLM的不足,同时保持LLM的计算效率。

技术框架:该方法的技术框架主要包括两个阶段:特征提取阶段和LLM评分阶段。在特征提取阶段,使用自然语言处理工具提取作文的各种语言特征,例如词汇多样性、句法复杂度、语义连贯性等。在LLM评分阶段,将提取的语言特征与作文文本一起输入到LLM中,LLM根据这些信息预测作文的得分。整体流程是先进行特征工程,然后将特征融入LLM进行评分。

关键创新:该方法最重要的技术创新点在于将传统的特征工程与现代的LLM相结合。与完全依赖LLM的方法相比,该方法显式地利用了语言特征来指导LLM的评分过程,从而提高了评分的准确性。与完全依赖特征工程的方法相比,该方法利用了LLM的强大语言建模能力,减少了对大量标注数据的依赖。

关键设计:论文中关键的设计包括:1) 选择合适的语言特征,这些特征能够有效地反映作文的质量。2) 设计合适的特征融合方法,将语言特征有效地融入到LLM中。3) 选择合适的LLM作为评分模型,并对其进行微调,以适应自动作文评分的任务。具体的参数设置和损失函数等技术细节在论文中没有详细说明,属于未知信息。

📊 实验亮点

实验结果表明,该混合方法在同领域和跨领域的写作提示中都优于基线模型。具体的性能数据和提升幅度在摘要中没有给出,属于未知信息。但论文强调了该方法在不同写作提示下的泛化能力,表明其具有较强的实用价值。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改软件等领域,帮助教师更高效地进行作文评分,并为学生提供个性化的写作反馈。通过提高自动作文评分的准确性和效率,可以减轻教师的负担,促进学生的写作能力发展。未来,该方法还可以扩展到其他文本评估任务,例如论文评审、代码审查等。

📄 摘要(原文)

Automatic Essay Scoring (AES) assigns scores to student essays, reducing the grading workload for instructors. Developing a scoring system capable of handling essays across diverse prompts is challenging due to the flexibility and diverse nature of the writing task. Existing methods typically fall into two categories: supervised feature-based approaches and large language model (LLM)-based methods. Supervised feature-based approaches often achieve higher performance but require resource-intensive training. In contrast, LLM-based methods are computationally efficient during inference but tend to suffer from lower performance. This paper combines these approaches by incorporating linguistic features into LLM-based scoring. Experimental results show that this hybrid method outperforms baseline models for both in-domain and out-of-domain writing prompts.