Enhancing LLM-Based Short Answer Grading with Retrieval-Augmented Generation

作者: Yucheng Chu, Peng He, Hang Li, Haoyu Han, Kaiqi Yang, Yu Xue, Tingting Li, Joseph Krajcik, Jiliang Tang

分类: cs.CL

发布日期: 2025-04-07 (更新: 2025-06-03)

备注: EDM 2025 Short Paper

💡 一句话要点

提出基于检索增强生成(RAG)的LLM短答案自动评分框架，提升评分准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 短答案评分 大型语言模型 检索增强生成 领域知识 语义搜索

📋 核心要点

LLM在短答案评分中受限于领域知识，无法充分理解任务需求，导致评分准确率不高。
提出自适应RAG框架，通过语义搜索和教育资源检索，动态地为LLM提供领域知识。
实验表明，该系统在科学教育数据集上提高了评分准确性，验证了RAG增强的有效性。

📝 摘要（中文）

短答案评估是科学教育的重要组成部分，能够评估学生对复杂三维知识的理解。大型语言模型(LLM)在语言任务中表现出类人能力，越来越受欢迎，可以辅助人工评分员减少工作量。然而，LLM在领域知识方面的局限性限制了它们对特定任务要求的理解，并阻碍了它们获得令人满意的性能。检索增强生成(RAG)通过使LLM能够在评估期间访问相关的领域特定知识，成为一种有前途的解决方案。本文提出了一种自适应RAG框架，用于自动评分，该框架基于问题和学生答案的上下文动态检索和整合领域特定知识。我们的方法结合了语义搜索和精心策划的教育资源，以检索有价值的参考材料。在科学教育数据集上的实验结果表明，与基线LLM方法相比，我们的系统在评分准确性方面取得了提高。研究结果表明，RAG增强的评分系统可以作为可靠的支持，并带来高效的性能提升。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在短答案自动评分任务中，由于缺乏特定领域的知识而导致的评分准确率低的问题。现有方法难以充分理解学生答案中的领域知识，无法准确评估学生的理解程度。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，在LLM进行评分之前，先从外部知识库中检索与问题和学生答案相关的领域知识，然后将这些知识融入到LLM的评分过程中。这样可以弥补LLM自身知识的不足，提高评分的准确性和可靠性。

技术框架：整体框架包含以下几个主要模块：1) 问题和学生答案输入；2) 语义搜索模块，用于从外部知识库中检索相关文档；3) 知识融合模块，将检索到的知识融入到LLM的输入中；4) LLM评分模块，利用融合了知识的输入进行评分；5) 评分结果输出。该框架是自适应的，能够根据问题和答案的上下文动态地检索和整合知识。

关键创新：关键创新在于自适应的RAG框架，它能够根据问题和学生答案的上下文，动态地检索和整合领域知识。此外，论文还结合了语义搜索和精心策划的教育资源，以提高检索的准确性和效率。与传统的LLM评分方法相比，该方法能够更好地理解学生答案中的领域知识，从而提高评分的准确性。

关键设计：论文中使用了语义搜索技术来检索相关文档，具体实现细节未知。知识融合的方式也未知，可能采用了prompting或者fine-tuning等方法。LLM的具体选择也未知，但可能是常见的如GPT-3或LLaMA等模型。损失函数和网络结构等技术细节未在摘要中提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的RAG增强的评分系统在科学教育数据集上取得了显著的性能提升，提高了评分准确性。具体提升幅度未知，但表明该方法能够有效利用领域知识，弥补LLM的不足，从而提高评分的可靠性。该研究为LLM在教育领域的应用提供了有价值的参考。

🎯 应用场景

该研究成果可应用于在线教育平台、自动阅卷系统等领域，减轻教师的阅卷负担，提高评分效率和公平性。通过提供更准确的反馈，有助于学生更好地理解知识，提升学习效果。未来，该技术还可扩展到其他需要领域知识的文本评估任务中。

📄 摘要（原文）

Short answer assessment is a vital component of science education, allowing evaluation of students' complex three-dimensional understanding. Large language models (LLMs) that possess human-like ability in linguistic tasks are increasingly popular in assisting human graders to reduce their workload. However, LLMs' limitations in domain knowledge restrict their understanding in task-specific requirements and hinder their ability to achieve satisfactory performance. Retrieval-augmented generation (RAG) emerges as a promising solution by enabling LLMs to access relevant domain-specific knowledge during assessment. In this work, we propose an adaptive RAG framework for automated grading that dynamically retrieves and incorporates domain-specific knowledge based on the question and student answer context. Our approach combines semantic search and curated educational sources to retrieve valuable reference materials. Experimental results in a science education dataset demonstrate that our system achieves an improvement in grading accuracy compared to baseline LLM approaches. The findings suggest that RAG-enhanced grading systems can serve as reliable support with efficient performance gains.

Enhancing LLM-Based Short Answer Grading with Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理