RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring
作者: Ali Ghiasvand Mohammadkhani
分类: cs.CL, cs.CY, cs.LG
发布日期: 2024-07-03
💡 一句话要点
提出基于推理蒸馏的RDBE模型,提升自动作文评分的性能与可解释性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动作文评分 推理蒸馏 可解释性 大型语言模型 小型语言模型
📋 核心要点
- 现有自动作文评分方法缺乏对评分结果的解释,限制了其应用和可信度。
- RDBE通过推理蒸馏,使小型语言模型具备生成评分理由的能力,提升模型的可解释性。
- 实验表明,RDBE在自动作文评分任务中取得了优于现有方法的结果,并具备实际应用价值。
📝 摘要(中文)
本文提出了一种基于推理蒸馏的评估方法(RDBE),用于提升自动作文评分(AES)任务的性能。与现有方法主要将AES视为分类问题,仅输出分数而缺乏解释不同,RDBE通过整合可解释性,在提供评分的同时阐明模型给出该评分的理由。RDBE在训练过程中,利用大型语言模型(LLM)生成的推理过程来蒸馏小型语言模型(SLM),从而获得这种解释能力。实验结果表明,RDBE在数据集的所有评分标准上均表现出色,优于零样本LLM生成和微调基线模型,成为当前最佳方法,突显了其在可解释性输出和性能提升方面的实用性。
🔬 方法详解
问题定义:自动作文评分(AES)旨在自动评估作文质量并给出相应的分数。现有方法主要将AES视为分类或回归问题,直接预测分数,缺乏对评分依据的解释。这种缺乏可解释性限制了AES的应用,用户难以理解模型给出的评分,也难以信任模型的评估结果。因此,如何提高AES的可解释性是一个重要的研究问题。
核心思路:RDBE的核心思路是利用大型语言模型(LLM)的推理能力,生成对作文评分的理由,然后将这些理由作为知识,通过蒸馏的方式迁移到小型语言模型(SLM)中。这样,SLM不仅可以给出评分,还可以提供评分的解释,从而提高AES的可解释性。同时,通过蒸馏,SLM可以继承LLM的知识,提高评分的准确性。
技术框架:RDBE的技术框架主要包括两个阶段:1) LLM推理阶段:使用LLM对作文进行评分,并生成评分的理由。LLM可以采用提示学习等方法,引导其生成高质量的推理过程。2) SLM蒸馏阶段:使用LLM生成的评分和理由作为训练数据,对SLM进行微调。SLM的目标是同时预测评分和生成评分理由。通过蒸馏,SLM可以学习LLM的评分策略和推理过程。
关键创新:RDBE的关键创新在于将推理蒸馏引入到自动作文评分任务中,从而实现了可解释的自动评分。与现有方法相比,RDBE不仅可以给出评分,还可以提供评分的解释,提高了AES的可信度和实用性。此外,RDBE利用LLM的知识来指导SLM的训练,提高了评分的准确性。
关键设计:RDBE的关键设计包括:1) LLM的选择:选择具有强大推理能力和生成能力的大型语言模型,例如GPT-3或T5。2) 提示工程:设计合适的提示,引导LLM生成高质量的评分理由。3) 蒸馏策略:选择合适的蒸馏损失函数,例如交叉熵损失或KL散度,使SLM能够有效地学习LLM的知识。4) SLM的结构:选择合适的SLM结构,例如BERT或RoBERTa,使其能够有效地处理文本数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RDBE在自动作文评分任务中取得了显著的性能提升。RDBE优于零样本LLM生成和微调基线模型,成为当前最佳方法。具体来说,RDBE在所有评分标准上均表现出色,表明其具有良好的泛化能力。这些结果验证了RDBE的有效性和实用性。
🎯 应用场景
RDBE可应用于在线教育平台、作文批改系统等场景,为学生提供自动化的作文评分和反馈。通过提供评分理由,RDBE可以帮助学生理解自己的写作问题,提高写作水平。此外,RDBE还可以辅助教师进行作文批改,提高批改效率和一致性。未来,RDBE可以扩展到其他文本评估任务,例如论文评审、代码评审等。
📄 摘要(原文)
Recently, various encoder-only and encoder-decoder pre-trained models like BERT and T5 have been applied to automatic essay scoring (AES) as small language models. However, existing studies have primarily treated this task akin to a classification problem, focusing solely on outputting scores in the target text without offering interpretations for the generated scores. Departing from the approaches, we introduce Reasoning Distillation-Based Evaluation (RDBE), which integrates interpretability to elucidate the rationale behind model scores while enhancing performance through initial reasoning. This interpretive capability is acquired during training by leveraging generated reasoning from a large language model (LLM) to distill a small language model (SLM). Our experimental results demonstrate the efficacy of RDBE across all scoring rubrics considered in the dataset. RDBE outperforms both zero-shot LLM generation and generation from a baseline fine-tuned model, establishing itself as state-of-the-art in the corresponding dataset. This highlights its practical interpretative output and enhanced performance.