Language Models are Few-Shot Graders

作者: Chenyan Zhao, Mariana Silva, Seth Poulsen

分类: cs.CL, cs.AI

发布日期: 2025-02-18

💡 一句话要点

提出基于LLM的自动短答案评分（ASAG）流程，提升评分准确性和效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动短答案评分 大型语言模型 Few-shot学习 检索增强生成 在线教育 自然语言处理 GPT-4 提示工程

📋 核心要点

现有自动短答案评分系统在准确性和效率上存在不足，难以满足大规模教学的需求。
论文提出基于LLM的ASAG流程，利用LLM的强大能力进行答案评估和反馈，并探索了RAG和评分细则的优化方法。
实验表明，该流程在准确性上优于现有模型，GPT-4o在准确性和成本效益之间达到最佳平衡，RAG选择策略提升了评分准确性。

📝 摘要（中文）

本文提出了一种利用先进大型语言模型（LLM）的自动短答案评分（ASAG）流程。自动评分系统旨在为开放式学生答案提供即时反馈，从而显著减轻人工评分者的工作负担。该流程在相同数据集上优于现有的定制模型。论文比较了GPT-4、GPT-4o和o1-preview三种OpenAI模型的评分性能，结果表明GPT-4o在准确性和成本效益之间取得了最佳平衡。研究还探讨了将教师评分的示例融入提示的影响，使用了无示例、随机选择和基于检索增强生成（RAG）的选择策略。结果表明，提供评分示例可以提高评分准确性，并且基于RAG的选择优于随机选择。此外，整合评分细则通过提供结构化的评估标准来提高准确性。

🔬 方法详解

问题定义：论文旨在解决自动短答案评分（ASAG）问题，即如何利用AI技术自动评估学生对开放式问题的回答。现有方法，特别是定制模型，在准确性和泛化能力上存在局限性，难以适应不同学科和题型，且需要大量标注数据进行训练。人工评分成本高昂，效率低下，无法满足大规模在线教育的需求。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大理解和生成能力，将其作为few-shot grader，即通过少量示例或评分细则，让LLM学习评分标准并进行自动评分。这种方法避免了从头训练模型的需要，降低了数据标注成本，并提高了模型的泛化能力。

技术框架：该ASAG流程主要包含以下几个阶段：1) 输入：接收学生答案、问题描述、可选的评分细则和教师评分示例。2) 提示构建：根据输入信息构建LLM的提示，包括问题、学生答案、评分细则（如有）以及few-shot示例（如有）。3) LLM推理：将构建好的提示输入LLM，获取LLM的评分结果。4) 后处理：对LLM的评分结果进行必要的后处理，例如将文本评分转换为数值评分。论文重点研究了不同LLM（GPT-4, GPT-4o, o1-preview）的性能比较，以及不同few-shot示例选择策略（无示例、随机选择、RAG）的影响。

关键创新：论文的关键创新在于：1) 将LLM作为few-shot grader，充分利用LLM的zero-shot和few-shot学习能力，降低了模型训练成本。2) 探索了RAG在few-shot示例选择中的应用，通过检索与当前学生答案相似的教师评分示例，提高了评分准确性。3) 研究了评分细则对LLM评分的影响，发现评分细则可以提供结构化的评估标准，从而提高评分准确性。与现有方法相比，该方法无需大量标注数据，具有更好的泛化能力和可扩展性。

关键设计：在few-shot示例选择方面，论文采用了基于RAG的选择策略，使用余弦相似度计算学生答案与教师评分示例之间的相似度，选择最相似的示例作为few-shot示例。在提示构建方面，论文将问题描述、学生答案、评分细则和few-shot示例以特定的格式组合成提示，以引导LLM进行评分。具体参数设置和损失函数等技术细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于LLM的ASAG流程在准确性上优于现有定制模型。GPT-4o在准确性和成本效益之间取得了最佳平衡。RAG选择策略在few-shot示例选择中优于随机选择，提高了评分准确性。整合评分细则通过提供结构化的评估标准，进一步提高了评分准确性。具体性能提升幅度未在摘要中给出，属于未知信息。

🎯 应用场景

该研究成果可广泛应用于在线教育平台、自动阅卷系统、智能辅导系统等领域。它可以减轻教师的阅卷负担，提高评分效率，并为学生提供即时反馈。此外，该技术还可以用于评估学生的写作能力、编程能力等，具有广泛的应用前景和实际价值。未来，可以进一步探索如何将该技术应用于更复杂的评估任务，例如论文评审、项目评估等。

📄 摘要（原文）

Providing evaluations to student work is a critical component of effective student learning, and automating its process can significantly reduce the workload on human graders. Automatic Short Answer Grading (ASAG) systems, enabled by advancements in Large Language Models (LLMs), offer a promising solution for assessing and providing instant feedback for open-ended student responses. In this paper, we present an ASAG pipeline leveraging state-of-the-art LLMs. Our new LLM-based ASAG pipeline achieves better performances than existing custom-built models on the same datasets. We also compare the grading performance of three OpenAI models: GPT-4, GPT-4o, and o1-preview. Our results demonstrate that GPT-4o achieves the best balance between accuracy and cost-effectiveness. On the other hand, o1-preview, despite higher accuracy, exhibits a larger variance in error that makes it less practical for classroom use. We investigate the effects of incorporating instructor-graded examples into prompts using no examples, random selection, and Retrieval-Augmented Generation (RAG)-based selection strategies. Our findings indicate that providing graded examples enhances grading accuracy, with RAG-based selection outperforming random selection. Additionally, integrating grading rubrics improves accuracy by offering a structured standard for evaluation.

Language Models are Few-Shot Graders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理