Unleashing Large Language Models' Proficiency in Zero-shot Essay Scoring

📄 arXiv: 2404.04941v2 📥 PDF

作者: Sanwoo Lee, Yida Cai, Desong Meng, Ziyang Wang, Yunfang Wu

分类: cs.CL

发布日期: 2024-04-07 (更新: 2024-10-03)


💡 一句话要点

提出多特征专业化框架以提升零-shot作文评分能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动化作文评分 大型语言模型 零-shot学习 多特征评分 教育技术

📋 核心要点

  1. 现有的自动化作文评分方法依赖于大量标注数据,获取这些数据成本高且耗时,限制了其广泛应用。
  2. 本文提出的多特征专业化(MTS)框架,通过自动分解写作能力并生成评分标准,利用LLMs进行零-shot评分。
  3. 实验结果显示,MTS在TOEFL11和ASAP数据集上分别提升了0.437和0.355,且小型模型Llama2-13b-chat超越了ChatGPT,展示了其实际应用潜力。

📝 摘要(中文)

自动化作文评分(AES)的进展通常依赖于标注作文,这需要大量的成本和专业知识。近年来,大型语言模型(LLMs)在各种任务中取得了显著成功,但在AES中的潜力尚未得到充分探索。本文展示了我们提出的零-shot提示框架——多特征专业化(MTS),能够充分发挥LLMs在作文评分中的潜力。我们自动将写作能力分解为不同特征,并为每个特征生成评分标准。然后,LLM通过多个对话轮次提取特征分数,最终通过特征平均和最小-最大缩放得出整体分数。实验结果表明,MTS在所有LLM和数据集上均优于简单提示方法(Vanilla),在TOEFL11和ASAP数据集上分别获得最大提升0.437和0.355。此外,借助MTS,小型Llama2-13b-chat显著超越ChatGPT,促进了在实际应用中的有效部署。

🔬 方法详解

问题定义:本文旨在解决自动化作文评分中对标注数据的依赖问题,现有方法在获取和使用标注数据方面存在高成本和低效率的痛点。

核心思路:论文提出的多特征专业化(MTS)框架,通过将写作能力分解为多个特征,并为每个特征生成评分标准,利用大型语言模型(LLMs)进行零-shot评分,从而减少对标注数据的需求。

技术框架:MTS框架包括几个主要模块:首先,自动分解写作能力为不同特征;其次,为每个特征生成评分标准;然后,通过多个对话轮次,LLM根据评分标准提取特征分数;最后,使用特征平均和最小-最大缩放计算整体分数。

关键创新:MTS的最大创新在于其能够有效地利用LLMs进行零-shot评分,而不是依赖于传统的标注数据,显著提升了评分的灵活性和效率。

关键设计:在设计中,MTS采用了特征分解和评分标准生成的自动化流程,确保了评分的一致性和准确性,同时在对话轮次中设置了明确的评分标准,以指导LLM的评分过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MTS框架在TOEFL11和ASAP数据集上分别实现了0.437和0.355的评分提升,且小型Llama2-13b-chat模型在MTS的帮助下显著超越了ChatGPT,展示了其在实际应用中的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括教育评估、在线学习平台和写作辅导工具。通过减少对人工标注的依赖,MTS框架能够在更广泛的场景中实现自动化作文评分,提升教育资源的利用效率,促进个性化学习体验的实现。

📄 摘要(原文)

Advances in automated essay scoring (AES) have traditionally relied on labeled essays, requiring tremendous cost and expertise for their acquisition. Recently, large language models (LLMs) have achieved great success in various tasks, but their potential is less explored in AES. In this paper, we show that our zero-shot prompting framework, Multi Trait Specialization (MTS), elicits LLMs' ample potential for essay scoring. In particular, we automatically decompose writing proficiency into distinct traits and generate scoring criteria for each trait. Then, an LLM is prompted to extract trait scores from several conversational rounds, each round scoring one of the traits based on the scoring criteria. Finally, we derive the overall score via trait averaging and min-max scaling. Experimental results on two benchmark datasets demonstrate that MTS consistently outperforms straightforward prompting (Vanilla) in average QWK across all LLMs and datasets, with maximum gains of 0.437 on TOEFL11 and 0.355 on ASAP. Additionally, with the help of MTS, the small-sized Llama2-13b-chat substantially outperforms ChatGPT, facilitating an effective deployment in real applications.