Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring

作者: Xuansheng Wu, Padmaja Pravin Saraf, Gyeonggeon Lee, Ehsan Latif, Ninghao Liu, Xiaoming Zhai

分类: cs.CL, cs.CY

发布日期: 2024-07-04 (更新: 2025-02-21)

备注: Accepted by Technology, Knowledge, and Learning (TKNL)

💡 一句话要点

揭示LLM评分过程：剖析自动评分中LLM与人类评分者的差异

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动评分 评分标准 教育评估 自然语言处理

📋 核心要点

现有自动评分方法缺乏对LLM评分过程的深入理解，无法保证评分标准与人类一致。
通过提示LLM生成评分标准，并分析其与人类评分标准的差异，揭示LLM的评分逻辑。
实验表明，融入高质量的分析性评分标准可以有效提升LLM评分的准确性，缩小与人类评分的差距。

📝 摘要（中文）

大型语言模型(LLMs)在构建式作答评估的自动评分方面表现出强大的潜力。虽然人类评分通常基于给定的评分标准，但LLMs分配分数的方法在很大程度上仍不清楚。人工智能的评分过程与人类的评分过程有多接近，或者它是否遵循相同的评分标准，也是不确定的。为了解决这一差距，本文揭示了LLMs用于评分学生科学任务书面回答的评分标准，以及它们与人类评分的一致性。我们还研究了增强一致性是否可以提高评分准确性。具体来说，我们提示LLMs生成它们用于分配分数的分析性评分标准，并研究与人类评分标准的对齐差距。基于对LLM设置的各种配置进行的一系列实验，我们揭示了人类评分者和LLM评分者之间显著的对齐差距。虽然LLMs可以快速适应评分任务，但它们通常会采取捷径，绕过人类评分中预期的更深层次的逻辑推理。我们发现，结合旨在反映人类评分逻辑的高质量分析性评分标准可以弥合这一差距，并提高LLMs的评分准确性。这些结果强调了在科学教育中应用LLMs时需要采取细致的方法，并强调了使LLM输出与人类期望保持一致以确保高效和准确的自动评分的重要性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在自动评分任务中，评分标准与人类评分标准不一致的问题。现有方法缺乏对LLM评分过程的透明度，导致无法理解LLM如何进行评分，以及其评分逻辑是否符合人类的期望。这种不一致性可能导致评分结果的偏差，影响自动评分的可靠性。

核心思路：论文的核心思路是通过提示LLM生成其自身的评分标准（analytic rubrics），然后将这些LLM生成的评分标准与人类专家制定的评分标准进行比较，从而揭示LLM的评分逻辑和潜在的偏差。通过分析两者之间的差距，可以更好地理解LLM的评分过程，并设计方法来弥合这些差距，提高LLM评分的准确性。

技术框架：论文的技术框架主要包括以下几个阶段：1) 使用不同的提示策略，引导LLM生成用于评分学生答案的分析性评分标准。2) 将LLM生成的评分标准与人类专家制定的评分标准进行对比分析，评估两者之间的对齐程度。3) 设计实验，验证将人类评分逻辑融入LLM评分过程后，是否能够提高LLM评分的准确性。4) 使用不同的LLM配置进行实验，评估不同LLM在自动评分任务中的表现。

关键创新：论文的关键创新在于：1) 提出了一种新颖的方法，通过提示LLM生成评分标准来揭示其评分逻辑，这为理解LLM的内部工作机制提供了一种新的视角。2) 强调了人类评分标准与LLM评分标准对齐的重要性，并验证了通过融入人类评分逻辑可以提高LLM评分准确性的观点。

关键设计：论文的关键设计包括：1) 精心设计的提示策略，用于引导LLM生成高质量的分析性评分标准。2) 使用多种指标来评估LLM生成的评分标准与人类评分标准的对齐程度。3) 通过实验验证了将人类评分逻辑融入LLM评分过程的有效性，并评估了不同LLM配置在自动评分任务中的表现。

📊 实验亮点

实验结果表明，LLM在自动评分中存在与人类评分标准的对齐差距，但通过引入高质量的分析性评分标准，可以显著提高LLM的评分准确性。具体而言，融入人类评分逻辑后，LLM的评分结果与人类评分结果的相关性得到了显著提升，表明了对齐人类评分标准的重要性。

🎯 应用场景

该研究成果可应用于在线教育平台、自动阅卷系统等领域，提高评分效率和一致性。通过使LLM的评分标准与人类期望对齐，可以提升自动评分的公平性和可靠性，为学生提供更准确的反馈，并减轻教师的阅卷负担。未来，该研究可扩展到其他类型的评估任务，例如论文评分、代码评估等。

📄 摘要（原文）

Large language models (LLMs) have demonstrated strong potential in performing automatic scoring for constructed response assessments. While constructed responses graded by humans are usually based on given grading rubrics, the methods by which LLMs assign scores remain largely unclear. It is also uncertain how closely AI's scoring process mirrors that of humans or if it adheres to the same grading criteria. To address this gap, this paper uncovers the grading rubrics that LLMs used to score students' written responses to science tasks and their alignment with human scores. We also examine whether enhancing the alignments can improve scoring accuracy. Specifically, we prompt LLMs to generate analytic rubrics that they use to assign scores and study the alignment gap with human grading rubrics. Based on a series of experiments with various configurations of LLM settings, we reveal a notable alignment gap between human and LLM graders. While LLMs can adapt quickly to scoring tasks, they often resort to shortcuts, bypassing deeper logical reasoning expected in human grading. We found that incorporating high-quality analytical rubrics designed to reflect human grading logic can mitigate this gap and enhance LLMs' scoring accuracy. These results underscore the need for a nuanced approach when applying LLMs in science education and highlight the importance of aligning LLM outputs with human expectations to ensure efficient and accurate automatic scoring.

Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理