SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models
作者: Peichao Lai, Kexuan Zhang, Yi Lin, Linyihan Zhang, Feiyang Ye, Jinhao Yan, Yanwei Xu, Conghui He, Yilei Wang, Wentao Zhang, Bin Cui
分类: cs.CL, cs.AI
发布日期: 2025-05-12 (更新: 2025-05-15)
💡 一句话要点
提出SAS-Bench基准,用于评估大语言模型在短答案评分中的表现,并提供细粒度分析。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 短答案评分 大型语言模型 基准数据集 教育评估 自动阅卷 少量样本学习 可解释性 自然语言处理
📋 核心要点
- 现有短答案评分方法粒度粗糙,缺乏详细推理,且大语言模型作为评估器存在偏差和透明度问题。
- 提出SAS-Bench基准,包含细粒度评分、专家标注错误类别和多样化题型,促进模型推理过程评估。
- 发布包含1030个问题和4109个学生答案的数据集,实验表明少量样本提示能有效提高评分准确性。
📝 摘要(中文)
主观答案评分(SAG)在教育、标准化考试和自动评估系统中起着关键作用,尤其是在评估短答案评分(SAS)中的简短回答时。然而,现有方法通常产生粗粒度的分数,并且缺乏详细的推理。尽管大型语言模型(LLM)已经展示了作为零样本评估器的潜力,但它们仍然容易受到偏差、与人类判断的不一致以及评分决策的透明度有限的影响。为了克服这些限制,我们引入了SAS-Bench,这是一个专门为基于LLM的SAS任务设计的基准。SAS-Bench提供细粒度的、逐步的评分、专家注释的错误类别以及来自真实学科考试的各种问题类型。该基准有助于详细评估模型推理过程和可解释性。我们还发布了一个包含1,030个问题和4,109个学生回答的开源数据集,每个问题都由领域专家注释。此外,我们使用各种LLM进行了全面的实验,确定了评分科学相关问题的主要挑战,并强调了少量样本提示在提高评分准确性方面的有效性。我们的工作为开发更健壮、公平和具有教育意义的基于LLM的评估系统提供了有价值的见解。
🔬 方法详解
问题定义:论文旨在解决现有短答案评分(SAS)方法的不足,特别是针对大语言模型(LLM)在SAS任务中存在的偏差、与人类判断不一致以及缺乏透明度的问题。现有方法通常只能给出粗粒度的评分,无法提供详细的推理过程,这使得我们难以理解模型的评分依据,也难以改进模型的性能。
核心思路:论文的核心思路是构建一个高质量、细粒度的基准数据集SAS-Bench,用于更全面、深入地评估LLM在SAS任务中的表现。通过提供专家标注的错误类别和逐步评分,SAS-Bench能够帮助研究人员更好地理解LLM的推理过程,并针对性地改进模型。同时,论文还通过实验验证了少量样本提示(few-shot prompting)在提高评分准确性方面的有效性。
技术框架:SAS-Bench基准主要包含以下几个部分:1) 数据集构建:收集来自真实学科考试的1030个问题和4109个学生回答,并由领域专家进行标注。2) 细粒度评分:对每个答案进行逐步评分,并标注错误类别。3) LLM评估:使用各种LLM在SAS-Bench上进行实验,评估其评分准确性和推理能力。4) 少量样本提示:探索少量样本提示在提高LLM评分准确性方面的作用。
关键创新:论文的关键创新在于构建了SAS-Bench基准,该基准具有以下特点:1) 细粒度:提供逐步评分和错误类别标注,能够更深入地评估LLM的推理过程。2) 多样性:包含来自真实学科考试的各种问题类型,能够更全面地评估LLM的泛化能力。3) 专家标注:由领域专家进行标注,保证了数据的质量和可靠性。
关键设计:在数据集构建方面,论文注重选择具有代表性的问题和答案,并邀请领域专家进行标注,以保证数据的质量。在LLM评估方面,论文选择了多种具有代表性的LLM,并探索了不同的提示策略,以全面评估LLM在SAS任务中的表现。此外,论文还特别关注了少量样本提示在提高评分准确性方面的作用,并进行了深入的实验分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的LLM在评分科学相关问题时面临挑战。通过在SAS-Bench上进行评估,发现少量样本提示能够显著提高LLM的评分准确性。例如,在特定科目上,使用少量样本提示后,LLM的评分准确率提升了10%以上。
🎯 应用场景
该研究成果可应用于自动阅卷系统、在线教育平台和标准化考试评估等领域。通过利用LLM进行自动评分,可以减轻教师的负担,提高评分效率和一致性。此外,SAS-Bench基准的发布将促进LLM在教育领域的应用,并推动相关技术的发展。
📄 摘要(原文)
Subjective Answer Grading (SAG) plays a crucial role in education, standardized testing, and automated assessment systems, particularly for evaluating short-form responses in Short Answer Scoring (SAS). However, existing approaches often produce coarse-grained scores and lack detailed reasoning. Although large language models (LLMs) have demonstrated potential as zero-shot evaluators, they remain susceptible to bias, inconsistencies with human judgment, and limited transparency in scoring decisions. To overcome these limitations, we introduce SAS-Bench, a benchmark specifically designed for LLM-based SAS tasks. SAS-Bench provides fine-grained, step-wise scoring, expert-annotated error categories, and a diverse range of question types derived from real-world subject-specific exams. This benchmark facilitates detailed evaluation of model reasoning processes and explainability. We also release an open-source dataset containing 1,030 questions and 4,109 student responses, each annotated by domain experts. Furthermore, we conduct comprehensive experiments with various LLMs, identifying major challenges in scoring science-related questions and highlighting the effectiveness of few-shot prompting in improving scoring accuracy. Our work offers valuable insights into the development of more robust, fair, and educationally meaningful LLM-based evaluation systems.