Evaluating Students' Open-ended Written Responses with LLMs: Using the RAG Framework for GPT-3.5, GPT-4, Claude-3, and Mistral-Large

作者: Jussi S. Jauhiainen, Agustín Garagorry Guerra

分类: cs.CL, cs.AI

发布日期: 2024-05-08

备注: 18 pages, 6 tables, 1 figure

💡 一句话要点

利用RAG框架评估LLM在开放式学生答案评估中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 RAG框架 教育评估 开放式答案 自动化阅卷

📋 核心要点

教育者评估开放式答案耗时费力，需要高一致性和准确性，现有方法难以兼顾效率与质量。
论文采用RAG框架，指导ChatGPT-3.5、ChatGPT-4、Claude-3和Mistral-Large评估学生答案。
研究发现不同LLM在评估一致性和结果上存在差异，揭示了LLM在教育评估中的优缺点。

📝 摘要（中文）

评估学生开放式书面考试答案对于教育工作者来说是一项至关重要但耗时的任务，需要高度的努力、一致性和精确性。大型语言模型（LLM）的最新发展为平衡彻底评估的需求与有效利用教育工作者的时间提供了一个有希望的机会。在本研究中，我们探讨了LLM ChatGPT-3.5、ChatGPT-4、Claude-3和Mistral-Large在评估大学生对他们所学参考资料的开放式答案的有效性。每个模型被指示在两种条件下重复评估54个答案：以0.0的温度设置进行10次（10-shot），以0.5的温度设置进行10次，预计每个模型总共进行1,080次评估，所有模型总共进行4,320次评估。RAG（检索增强生成）框架被用作框架，使LLM能够处理答案的评估。截至2024年春季，我们的分析显示，所研究的LLM在一致性和评分结果方面存在显着差异。有必要了解LLM在教育环境中评估开放式书面回答的优势和劣势。进一步的比较研究对于确定使用LLM进行教育评估的准确性和成本效益至关重要。

🔬 方法详解

问题定义：论文旨在解决教育领域中，教师评估学生开放式书面回答时面临的效率和一致性问题。传统的人工评估方式耗时费力，且容易受到主观因素的影响，导致评估结果的一致性难以保证。现有方法缺乏利用大型语言模型（LLM）进行高效、客观评估的有效框架。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，将LLM应用于学生开放式答案的评估。RAG框架通过检索相关参考资料，为LLM提供更丰富的上下文信息，从而提高评估的准确性和可靠性。通过对比不同LLM在相同任务上的表现，分析其优势和劣势，为教育者选择合适的LLM提供参考。

技术框架：整体框架包括以下几个主要步骤：1) 准备学生答案和参考资料；2) 使用RAG框架，将参考资料作为上下文输入LLM；3) 指示LLM根据参考资料评估学生答案；4) 记录和分析LLM的评估结果，包括一致性和评分结果。实验中，使用了ChatGPT-3.5、ChatGPT-4、Claude-3和Mistral-Large四种LLM。

关键创新：论文的关键创新在于将RAG框架应用于教育评估领域，并系统地比较了不同LLM在开放式答案评估中的表现。通过RAG框架，LLM可以更好地理解学生答案的上下文，从而提高评估的准确性和可靠性。此外，论文还分析了不同LLM在一致性和评分结果方面的差异，为教育者选择合适的LLM提供了有价值的参考。

关键设计：实验中，每个模型被指示在两种条件下重复评估54个答案：以0.0的温度设置进行10次（10-shot），以0.5的温度设置进行10次，以考察不同温度设置对评估结果的影响。评估指标包括评估结果的一致性和评分结果。RAG框架的具体实现细节未在摘要中详细说明，但可以推测其包括检索相关参考资料和将参考资料作为上下文输入LLM的步骤。

📊 实验亮点

研究对比了ChatGPT-3.5、ChatGPT-4、Claude-3和Mistral-Large在评估学生答案时的表现，发现不同LLM在一致性和评分结果方面存在显著差异。具体性能数据未在摘要中给出，但研究强调了理解LLM在教育评估中优缺点的必要性，并指出需要进一步研究以确定LLM用于教育评估的准确性和成本效益。

🎯 应用场景

该研究成果可应用于在线教育平台、自动化阅卷系统等领域，帮助教师更高效、更客观地评估学生的开放式书面回答。通过选择合适的LLM和优化RAG框架，可以显著提高评估的效率和准确性，减轻教师的负担，并为学生提供更及时、更个性化的反馈。未来，该技术有望进一步发展，实现更智能化的教育评估。

📄 摘要（原文）

Evaluating open-ended written examination responses from students is an essential yet time-intensive task for educators, requiring a high degree of effort, consistency, and precision. Recent developments in Large Language Models (LLMs) present a promising opportunity to balance the need for thorough evaluation with efficient use of educators' time. In our study, we explore the effectiveness of LLMs ChatGPT-3.5, ChatGPT-4, Claude-3, and Mistral-Large in assessing university students' open-ended answers to questions made about reference material they have studied. Each model was instructed to evaluate 54 answers repeatedly under two conditions: 10 times (10-shot) with a temperature setting of 0.0 and 10 times with a temperature of 0.5, expecting a total of 1,080 evaluations per model and 4,320 evaluations across all models. The RAG (Retrieval Augmented Generation) framework was used as the framework to make the LLMs to process the evaluation of the answers. As of spring 2024, our analysis revealed notable variations in consistency and the grading outcomes provided by studied LLMs. There is a need to comprehend strengths and weaknesses of LLMs in educational settings for evaluating open-ended written responses. Further comparative research is essential to determine the accuracy and cost-effectiveness of using LLMs for educational assessments.

Evaluating Students' Open-ended Written Responses with LLMs: Using the RAG Framework for GPT-3.5, GPT-4, Claude-3, and Mistral-Large

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理