Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs
作者: SeongYeub Chu, JongWoo Kim, Bryan Wong, MunYong Yi
分类: cs.CL, cs.AI
发布日期: 2024-10-18 (更新: 2025-02-05)
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于理由的多维度作文评分方法RMTS,利用LLM提升S-LLM的评分性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动作文评分 大型语言模型 多维度评分 可解释性 提示工程
📋 核心要点
- 现有自动作文评分系统缺乏对评分理由的解释,无法细粒度地捕捉评分标准中的各个指标。
- RMTS方法利用LLM生成特定特征的评分理由,并将其融入到S-LLM评分模型中,提升评分准确性。
- 在多个基准数据集上的实验表明,RMTS显著优于现有方法和原始S-LLM,提升了评分的可靠性。
📝 摘要(中文)
现有的自动作文评分(AES)仅依赖于作文文本,而忽略了解释性理由,从而错失了细粒度地捕捉评分标准中各个指标所评估的特定方面的机会。本文介绍了一种基于理由的多维度评分(RMTS)的新方法,该方法集成了基于提示工程的大型语言模型(LLM)和使用较小的大型语言模型(S-LLM)的基于微调的作文评分模型。RMTS使用基于LLM的特征式理由生成系统,其中单独的LLM代理根据评分标准指南生成特定于特征的理由,评分模型使用这些理由来准确预测多维度分数。在包括ASAP、ASAP++和Feedback Prize在内的基准数据集上进行的大量实验表明,RMTS在特定特征评分方面显著优于最先进的模型和原始S-LLM。通过使用细粒度的定性理由辅助定量评估,RMTS增强了特征式可靠性,并提供了关于作文的部分解释。代码可在https://github.com/BBeeChu/RMTS.git 获取。
🔬 方法详解
问题定义:现有的自动作文评分系统(AES)主要依赖于作文的文本内容进行评分,缺乏对评分理由的解释。这意味着系统无法明确指出作文在哪些方面表现出色或不足,也无法细粒度地捕捉评分标准中各个指标所评估的特定方面。这种缺乏可解释性的问题限制了AES在教育领域的应用,例如教师难以理解评分依据,学生也难以根据评分结果改进写作。
核心思路:RMTS的核心思路是利用大型语言模型(LLM)生成特定特征的评分理由,并将这些理由作为额外的信息输入到评分模型中。通过这种方式,评分模型不仅可以利用作文的文本内容,还可以利用LLM提供的解释性信息,从而更准确地预测多维度分数。这种方法的核心在于将定量评估与定性解释相结合,提升评分的可解释性和可靠性。
技术框架:RMTS包含两个主要模块:基于LLM的特征式理由生成系统和基于微调的作文评分模型。首先,利用基于提示工程的LLM,根据评分标准指南,为每篇作文生成特定于各个评分特征的理由。然后,将生成的理由与作文文本一起输入到基于S-LLM的评分模型中,该模型经过微调以预测多维度分数。整体流程是先用LLM生成理由,再用S-LLM结合理由和文本进行评分。
关键创新:RMTS的关键创新在于将LLM的推理能力与S-LLM的评分能力相结合。传统的AES方法只关注作文的文本内容,而RMTS通过引入LLM生成的理由,为评分模型提供了额外的上下文信息。这种方法不仅提升了评分的准确性,还增强了评分的可解释性。此外,RMTS使用单独的LLM代理生成特征式理由,使得系统能够针对不同的评分特征进行更细致的评估。
关键设计:在理由生成阶段,RMTS采用提示工程技术,设计合适的提示语,引导LLM生成高质量的评分理由。在评分模型方面,RMTS选择S-LLM作为基础模型,并通过微调使其适应特定的评分任务。具体的参数设置和损失函数选择未知,但论文强调了理由生成和评分模型之间的有效集成。
🖼️ 关键图片
📊 实验亮点
RMTS在ASAP、ASAP++和Feedback Prize等基准数据集上进行了广泛的实验,结果表明RMTS在特定特征评分方面显著优于最先进的模型和原始S-LLM。具体的性能数据和提升幅度未知,但论文强调了RMTS在评分准确性和可解释性方面的显著优势。
🎯 应用场景
RMTS可应用于教育领域,辅助教师进行作文评分,提供更细致和可解释的评分结果,帮助学生更好地理解自己的写作优势和不足。此外,该方法还可以应用于在线教育平台,实现自动化的作文评估和反馈,提高教学效率和质量。未来,该方法可以扩展到其他类型的文本评估任务,例如论文评审、报告分析等。
📄 摘要(原文)
Existing automated essay scoring (AES) has solely relied on essay text without using explanatory rationales for the scores, thereby forgoing an opportunity to capture the specific aspects evaluated by rubric indicators in a fine-grained manner. This paper introduces Rationale-based Multiple Trait Scoring (RMTS), a novel approach for multi-trait essay scoring that integrates prompt-engineering-based large language models (LLMs) with a fine-tuning-based essay scoring model using a smaller large language model (S-LLM). RMTS uses an LLM-based trait-wise rationale generation system where a separate LLM agent generates trait-specific rationales based on rubric guidelines, which the scoring model uses to accurately predict multi-trait scores. Extensive experiments on benchmark datasets, including ASAP, ASAP++, and Feedback Prize, show that RMTS significantly outperforms state-of-the-art models and vanilla S-LLMs in trait-specific scoring. By assisting quantitative assessment with fine-grained qualitative rationales, RMTS enhances the trait-wise reliability, providing partial explanations about essays. The code is available at https://github.com/BBeeChu/RMTS.git.