Enhancing LLM-Based Short Answer Grading with Retrieval-Augmented Generation
作者: Yucheng Chu, Peng He, Hang Li, Haoyu Han, Kaiqi Yang, Yu Xue, Tingting Li, Joseph Krajcik, Jiliang Tang
分类: cs.CL
发布日期: 2025-04-07 (更新: 2025-06-03)
备注: EDM 2025 Short Paper
💡 一句话要点
提出基于检索增强生成(RAG)的LLM短答案自动评分框架,提升评分准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 短答案评分 大型语言模型 检索增强生成 领域知识 语义搜索
📋 核心要点
- LLM在短答案评分中受限于领域知识,无法充分理解任务需求,导致评分准确率不高。
- 提出自适应RAG框架,通过语义搜索和教育资源检索,动态地为LLM提供领域知识。
- 实验表明,该系统在科学教育数据集上提高了评分准确性,验证了RAG增强的有效性。
📝 摘要(中文)
短答案评估是科学教育的重要组成部分,能够评估学生对复杂三维知识的理解。大型语言模型(LLM)在语言任务中表现出类人能力,越来越受欢迎,可以辅助人工评分员减少工作量。然而,LLM在领域知识方面的局限性限制了它们对特定任务要求的理解,并阻碍了它们获得令人满意的性能。检索增强生成(RAG)通过使LLM能够在评估期间访问相关的领域特定知识,成为一种有前途的解决方案。本文提出了一种自适应RAG框架,用于自动评分,该框架基于问题和学生答案的上下文动态检索和整合领域特定知识。我们的方法结合了语义搜索和精心策划的教育资源,以检索有价值的参考材料。在科学教育数据集上的实验结果表明,与基线LLM方法相比,我们的系统在评分准确性方面取得了提高。研究结果表明,RAG增强的评分系统可以作为可靠的支持,并带来高效的性能提升。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在短答案自动评分任务中,由于缺乏特定领域的知识而导致的评分准确率低的问题。现有方法难以充分理解学生答案中的领域知识,无法准确评估学生的理解程度。
核心思路:论文的核心思路是利用检索增强生成(RAG)框架,在LLM进行评分之前,先从外部知识库中检索与问题和学生答案相关的领域知识,然后将这些知识融入到LLM的评分过程中。这样可以弥补LLM自身知识的不足,提高评分的准确性和可靠性。
技术框架:整体框架包含以下几个主要模块:1) 问题和学生答案输入;2) 语义搜索模块,用于从外部知识库中检索相关文档;3) 知识融合模块,将检索到的知识融入到LLM的输入中;4) LLM评分模块,利用融合了知识的输入进行评分;5) 评分结果输出。该框架是自适应的,能够根据问题和答案的上下文动态地检索和整合知识。
关键创新:关键创新在于自适应的RAG框架,它能够根据问题和学生答案的上下文,动态地检索和整合领域知识。此外,论文还结合了语义搜索和精心策划的教育资源,以提高检索的准确性和效率。与传统的LLM评分方法相比,该方法能够更好地理解学生答案中的领域知识,从而提高评分的准确性。
关键设计:论文中使用了语义搜索技术来检索相关文档,具体实现细节未知。知识融合的方式也未知,可能采用了prompting或者fine-tuning等方法。LLM的具体选择也未知,但可能是常见的如GPT-3或LLaMA等模型。损失函数和网络结构等技术细节未在摘要中提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的RAG增强的评分系统在科学教育数据集上取得了显著的性能提升,提高了评分准确性。具体提升幅度未知,但表明该方法能够有效利用领域知识,弥补LLM的不足,从而提高评分的可靠性。该研究为LLM在教育领域的应用提供了有价值的参考。
🎯 应用场景
该研究成果可应用于在线教育平台、自动阅卷系统等领域,减轻教师的阅卷负担,提高评分效率和公平性。通过提供更准确的反馈,有助于学生更好地理解知识,提升学习效果。未来,该技术还可扩展到其他需要领域知识的文本评估任务中。
📄 摘要(原文)
Short answer assessment is a vital component of science education, allowing evaluation of students' complex three-dimensional understanding. Large language models (LLMs) that possess human-like ability in linguistic tasks are increasingly popular in assisting human graders to reduce their workload. However, LLMs' limitations in domain knowledge restrict their understanding in task-specific requirements and hinder their ability to achieve satisfactory performance. Retrieval-augmented generation (RAG) emerges as a promising solution by enabling LLMs to access relevant domain-specific knowledge during assessment. In this work, we propose an adaptive RAG framework for automated grading that dynamically retrieves and incorporates domain-specific knowledge based on the question and student answer context. Our approach combines semantic search and curated educational sources to retrieve valuable reference materials. Experimental results in a science education dataset demonstrate that our system achieves an improvement in grading accuracy compared to baseline LLM approaches. The findings suggest that RAG-enhanced grading systems can serve as reliable support with efficient performance gains.