The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring
作者: Ali Keramati, Mark Warschauer
分类: cs.CL, cs.LG
发布日期: 2026-06-09
💡 一句话要点
通过顺序微调LLaMA提升自动化作文评分的连贯性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动化作文评分 顺序微调 任务感知训练 自然语言处理 教育技术
📋 核心要点
- 现有的自动化作文评分方法往往孤立处理论述元素,导致评分的连贯性和泛化能力不足。
- 本文提出了顺序微调LLaMA模型的方法,通过逐步微调不同的论述元素来捕捉任务间的依赖关系。
- 实验结果显示,顺序微调在多个指标上超越了独立训练和更大模型的基线,证明了课程设计的重要性。
📝 摘要(中文)
自动化作文评分(AES)系统需要评估相互依赖的论述元素(如引言、主张、证据、结论),但大多数方法将其孤立处理,影响了连贯性和泛化能力。本文研究了使用参数高效的LoRA和4位量化对LLaMA-3.1-8B进行任务感知微调的效果,并比较了三种训练课程:顺序、独立和随机化。实验结果表明,顺序微调在整体表现上最为优越,尤其在证据和结论的F1分数分别达到65%和87%。这些发现表明,符合论述结构的课程设计能够显著提升AES的效果,并且小型任务优化模型在性能上可以与更大规模的模型竞争。
🔬 方法详解
问题定义:本文解决的是自动化作文评分系统在处理相互依赖的论述元素时的连贯性问题。现有方法往往将这些元素孤立处理,导致评分效果不佳。
核心思路:论文提出通过顺序微调的方式,逐步对引言、主张、证据和结论进行训练,以更好地捕捉任务间的依赖关系,从而提升评分的连贯性和准确性。
技术框架:整体架构包括三个主要阶段:首先是顺序微调模型,其次是使用LoRA进行参数高效的训练,最后是评估模型在PERSUADE~2.0语料库上的表现。
关键创新:最重要的技术创新在于顺序微调策略的引入,这一策略与传统的独立训练和随机化训练方法相比,能够更有效地捕捉论述元素之间的关系。
关键设计:在参数设置上,采用了4位量化的LoRA方法,以提高训练效率和模型的可扩展性。损失函数和网络结构的设计也经过优化,以确保模型在不同任务上的表现一致性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,顺序微调方法在证据和结论的F1分数分别达到65%和87%,准确率为63%和85%,明显优于独立训练和更大模型的基线。这表明课程设计与论述结构的对齐能够显著提升自动化评分的效果。
🎯 应用场景
该研究的潜在应用场景包括教育领域的自动化作文评分系统,能够为教师和学生提供实时反馈,提升写作教学的效率和效果。此外,研究成果也可为其他自然语言处理任务中的课程设计提供参考,推动教育技术的发展。
📄 摘要(原文)
Automated Essay Scoring (AES) systems must judge interdependent discourse elements (e.g., lead, claim, evidence, conclusion), yet most approaches treat these in isolation, harming coherence and generalization. We investigate task-aware fine-tuning of LLaMA-3.1-8B for AES using parameter-efficient LoRA with 4-bit quantization and compare three training curricula: (i) Sequential (progressively fine-tuning on lead, then position, then claim, then evidence, then conclusion), (ii) Independent (task-specific models), and (iii) Randomized (shuffled multi-task). Experiments on the PERSUADE~2.0 corpus show that modeling task dependencies matters: Sequential fine-tuning yields the strongest overall results, including F1 scores of 65% (evidence) and 87% (conclusion) and corresponding accuracies of 63% and 85%, surpassing Independent training and outperforming a general-purpose LLaMA-70B baseline on conclusion despite its far larger capacity. Randomized training improves position scoring (57% F1) but is less consistent elsewhere. These findings indicate that (1) curriculum design aligned with discourse structure can materially improve AES, and (2) small, task-optimized models can be competitive with substantially larger Large Language Models (LLM), offering a practical path to scalable, cost-effective assessment. We release templates and implementation details to facilitate reproduction and future work on curriculum design for educational NLP.