Assessing GPT Performance in a Proof-Based University-Level Course Under Blind Grading
作者: Ming Ding, Rasmus Kyng, Federico Solda, Weixuan Yuan
分类: cs.CY, cs.CL
发布日期: 2025-05-19
💡 一句话要点
评估GPT在盲评大学算法课程中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 教育评估 盲评机制 推理质量 算法课程
📋 核心要点
- 现有大型语言模型在高等教育中的应用尚未得到充分验证,尤其是在自由回答问题的场景中。
- 本研究通过在真实的本科算法课程中评估GPT-4o和o1-preview的表现,探讨其在教育中的适用性。
- 实验结果显示,o1-preview在某些练习中超越了学生中位数,而GPT-4o则未能达到及格标准,二者均存在推理质量问题。
📝 摘要(中文)
随着大型语言模型(LLMs)的发展,它们在高等教育中的角色,尤其是在自由回答问题的解决能力上,需要仔细审视。本研究评估了GPT-4o和o1-preview在本科算法课程中在真实教育条件下的表现。匿名的GPT生成的家庭作业解决方案由不知其来源的助教进行评分。我们的分析考察了粗粒度表现(分数)和细粒度推理质量(错误模式)。结果显示,GPT-4o始终表现不佳,未能达到及格线,而o1-preview表现显著更好,某些练习甚至超过了学生的中位数。然而,两种模型均存在不当主张和误导性论证的问题。这些发现强调了教育中需要强有力的评估策略和AI意识的评分政策。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型在大学算法课程中的表现,尤其是在盲评环境下的真实应用。现有方法未能充分探讨这些模型在教育场景中的实际效果和问题。
核心思路:通过对GPT-4o和o1-preview生成的解决方案进行盲评,分析其在评分和推理质量上的表现,以揭示其在教育中的潜在应用和局限性。
技术框架:研究设计包括生成匿名的GPT解决方案,随后由不知其来源的助教进行评分。分析分为粗粒度(分数)和细粒度(错误模式)两个层面。
关键创新:本研究首次在真实教育环境中评估大型语言模型的表现,强调了盲评机制在教育评估中的重要性,并揭示了模型在推理质量上的不足。
关键设计:研究中采用了标准化的评分系统,助教在评分时不知情,以确保评估的公正性。同时,分析了模型生成的错误类型,以识别其推理过程中的常见问题。
📊 实验亮点
实验结果显示,o1-preview在某些练习中超越了学生的中位数,表现显著优于GPT-4o,后者未能达到及格标准。两种模型均存在不当主张和误导性论证的问题,强调了教育中对AI评估策略的需求。
🎯 应用场景
该研究的结果对教育领域具有重要的应用价值,尤其是在评估和使用大型语言模型时。通过了解模型的表现和局限性,教育工作者可以更好地设计课程和评估策略,以适应AI技术的快速发展。未来,研究结果可能推动AI在教育中的更广泛应用,促进个性化学习和智能辅导系统的发展。
📄 摘要(原文)
As large language models (LLMs) advance, their role in higher education, particularly in free-response problem-solving, requires careful examination. This study assesses the performance of GPT-4o and o1-preview under realistic educational conditions in an undergraduate algorithms course. Anonymous GPT-generated solutions to take-home exams were graded by teaching assistants unaware of their origin. Our analysis examines both coarse-grained performance (scores) and fine-grained reasoning quality (error patterns). Results show that GPT-4o consistently struggles, failing to reach the passing threshold, while o1-preview performs significantly better, surpassing the passing score and even exceeding the student median in certain exercises. However, both models exhibit issues with unjustified claims and misleading arguments. These findings highlight the need for robust assessment strategies and AI-aware grading policies in education.