Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?

作者: Lui Yoshida

分类: cs.CL

发布日期: 2025-05-02

备注: Accepted in AIED 2025. This preprint has not undergone any post-submission improvements or corrections

💡 一句话要点

针对LLM自动作文评分，研究表明简化评分细则可在保证准确率的同时降低token使用量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动作文评分 大型语言模型 评分细则 token使用量 教育应用

📋 核心要点

现有基于LLM的自动作文评分依赖详细评分细则，但其创建耗时且增加token使用。
研究比较了不同详细程度的评分细则对LLM评分准确性的影响，旨在寻找更高效的替代方案。
实验结果表明，简化评分细则在多数情况下能保持评分准确率，同时降低token使用，但模型间存在差异。

📝 摘要（中文）

本研究探讨了在使用大型语言模型（LLM）进行自动作文评分（AES）时，详细评分细则的必要性和影响。虽然使用评分细则是基于LLM的AES的标准做法，但创建详细的评分细则需要大量的精力并增加token的使用量。我们使用TOEFL11数据集，研究了不同级别的评分细则详细程度如何影响多个LLM的评分准确性。我们的实验比较了三种情况：完整评分细则、简化评分细则和无评分细则，使用了四种不同的LLM（Claude 3.5 Haiku、Gemini 1.5 Flash、GPT-4o-mini和Llama 3 70B Instruct）。结果表明，四种模型中有三种在使用简化评分细则时，与详细评分细则相比，保持了相似的评分准确性，同时显著降低了token的使用量。然而，一种模型（Gemini 1.5 Flash）在更详细的评分细则下表现出性能下降。研究结果表明，简化的评分细则可能足以满足大多数基于LLM的AES应用，提供了一种更有效的替代方案，而不会影响评分准确性。然而，模型特定的评估仍然至关重要，因为不同LLM的性能模式各不相同。

🔬 方法详解

问题定义：论文旨在解决在使用大型语言模型进行自动作文评分时，是否需要详细的评分细则的问题。现有方法依赖于详尽的评分标准，这增加了人工成本和计算资源消耗（token使用量）。论文试图找到一种更高效的方法，即使用简化的评分细则，同时保持评分的准确性。

核心思路：核心思路是通过实验对比不同详细程度的评分细则（完整、简化、无）对不同LLM评分性能的影响。如果简化评分细则能够达到与完整评分细则相似的准确率，那么就可以在实际应用中采用简化方案，从而降低成本和提高效率。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择TOEFL11数据集作为实验数据；2) 设计三种不同详细程度的评分细则（完整、简化、无）；3) 选择四种不同的LLM（Claude 3.5 Haiku, Gemini 1.5 Flash, GPT-4o-mini, Llama 3 70B Instruct）进行实验；4) 使用不同的评分细则对LLM进行评估，并比较其评分准确率和token使用量；5) 分析实验结果，得出结论。

关键创新：该研究的关键创新在于实证地研究了评分细则的详细程度对LLM自动作文评分性能的影响。以往的研究可能更多地关注于如何设计更复杂的模型或更精细的特征，而忽略了评分细则本身的影响。该研究表明，在某些情况下，简化的评分细则可能就足够了，从而为实际应用提供了新的思路。

关键设计：关键设计包括：1) 评分细则的简化方法（具体简化方式未知）；2) 实验中使用的四种LLM的选择（代表了不同架构和规模的模型）；3) 评分准确率的评估指标（具体指标未知）；4) token使用量的计算方法（具体方法未知）。

📊 实验亮点

实验结果表明，对于Claude 3.5 Haiku、GPT-4o-mini和Llama 3 70B Instruct这三种模型，使用简化评分细则与使用完整评分细则相比，评分准确率基本保持不变，但显著降低了token使用量。然而，Gemini 1.5 Flash模型在更详细的评分细则下表现出性能下降。这表明不同LLM对评分细则的敏感度不同，需要针对特定模型进行评估。

🎯 应用场景

该研究成果可应用于在线教育平台、作文批改软件等领域，帮助降低自动作文评分的成本，提高评分效率。通过使用简化的评分细则，可以在保证评分质量的前提下，减少token的使用，从而降低运营成本。此外，该研究也为LLM在教育领域的应用提供了新的思路，即在设计应用时，需要充分考虑模型特性和任务需求，选择合适的策略。

📄 摘要（原文）

This study investigates the necessity and impact of a detailed rubric in automated essay scoring (AES) using large language models (LLMs). While using rubrics are standard in LLM-based AES, creating detailed rubrics requires substantial ef-fort and increases token usage. We examined how different levels of rubric detail affect scoring accuracy across multiple LLMs using the TOEFL11 dataset. Our experiments compared three conditions: a full rubric, a simplified rubric, and no rubric, using four different LLMs (Claude 3.5 Haiku, Gemini 1.5 Flash, GPT-4o-mini, and Llama 3 70B Instruct). Results showed that three out of four models maintained similar scoring accuracy with the simplified rubric compared to the detailed one, while significantly reducing token usage. However, one model (Gemini 1.5 Flash) showed decreased performance with more detailed rubrics. The findings suggest that simplified rubrics may be sufficient for most LLM-based AES applications, offering a more efficient alternative without compromis-ing scoring accuracy. However, model-specific evaluation remains crucial as per-formance patterns vary across different LLMs.

Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理