Assessing GPT Performance in a Proof-Based University-Level Course Under Blind Grading
作者: Ming Ding, Rasmus Kyng, Federico Solda, Weixuan Yuan
分类: cs.CY, cs.CL
发布日期: 2025-05-19
💡 一句话要点
评估GPT在盲评下基于证明的大学课程中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 算法课程 盲评 教育评估 逻辑推理 数学证明 GPT-4o o1-preview
📋 核心要点
- 大型语言模型在高等教育中自由回答问题解决方面的应用需要仔细评估,现有研究缺乏真实教育场景下的考察。
- 本研究通过盲评方式,评估GPT-4o和o1-preview在本科算法课程中的表现,分析其推理质量和错误模式。
- 实验结果表明,GPT-4o表现不佳,而o1-preview表现显著提升,但两种模型均存在无根据声明和误导性论证的问题。
📝 摘要(中文)
随着大型语言模型(LLMs)的进步,它们在高等教育中的作用,尤其是在自由回答问题解决方面,需要仔细审查。本研究评估了GPT-4o和o1-preview在本科算法课程的真实教育条件下的表现。教学助理在不知情的情况下对GPT生成的匿名家庭作业解答进行评分。我们的分析检查了粗粒度的性能(分数)和细粒度的推理质量(错误模式)。结果表明,GPT-4o一直表现不佳,未能达到及格门槛,而o1-preview表现明显更好,超过了及格分数,甚至在某些练习中超过了学生的中位数。然而,两种模型都存在无根据的声明和误导性论证的问题。这些发现强调了在教育中需要稳健的评估策略和具有AI意识的评分政策。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在解决大学算法课程中基于证明的问题时的能力。现有方法缺乏在真实教育场景下,对LLMs进行盲评的系统性研究,无法准确评估其在复杂问题解决中的表现,以及存在的推理缺陷。
核心思路:论文的核心思路是在模拟真实考试场景下,使用教学助理对LLMs生成的答案进行盲评,从而客观评估LLMs的解题能力和推理质量。通过分析LLMs的错误模式,揭示其在逻辑推理和数学证明方面的局限性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择本科算法课程的家庭作业作为评估对象;2) 使用GPT-4o和o1-preview生成答案;3) 对答案进行匿名化处理,确保评分者无法识别答案来源;4) 由教学助理对匿名答案进行评分;5) 分析评分结果,比较LLMs和学生的表现,并识别LLMs的错误模式。
关键创新:该研究的关键创新在于:1) 采用盲评方式,避免了评分者对LLMs的先验偏见,保证了评估的客观性;2) 关注LLMs在基于证明的问题解决中的表现,揭示了其在逻辑推理和数学证明方面的局限性;3) 分析了LLMs的错误模式,为改进LLMs的推理能力提供了有价值的 insights。
关键设计:论文的关键设计包括:1) 选择具有代表性的算法课程作业,涵盖了多种问题类型和难度级别;2) 使用GPT-4o和o1-preview两种不同的LLMs,比较其性能差异;3) 采用统一的评分标准,确保评分的一致性;4) 对错误模式进行细致的分类和分析,揭示LLMs的推理缺陷。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在算法课程作业中表现不佳,未能达到及格分数。而o1-preview表现显著提升,超过了及格分数,甚至在某些练习中超过了学生的中位数。然而,两种模型都存在无根据的声明和误导性论证的问题,表明LLMs在逻辑推理和数学证明方面仍存在局限性。
🎯 应用场景
该研究成果可应用于开发更有效的AI辅助教学工具,帮助学生理解和掌握算法知识。同时,研究结果也为教育工作者提供了关于如何设计AI友好的课程和评估方法的参考,促进AI在教育领域的合理应用。此外,该研究也为LLM的改进方向提供了指导,使其在逻辑推理和数学证明方面更加可靠。
📄 摘要(原文)
As large language models (LLMs) advance, their role in higher education, particularly in free-response problem-solving, requires careful examination. This study assesses the performance of GPT-4o and o1-preview under realistic educational conditions in an undergraduate algorithms course. Anonymous GPT-generated solutions to take-home exams were graded by teaching assistants unaware of their origin. Our analysis examines both coarse-grained performance (scores) and fine-grained reasoning quality (error patterns). Results show that GPT-4o consistently struggles, failing to reach the passing threshold, while o1-preview performs significantly better, surpassing the passing score and even exceeding the student median in certain exercises. However, both models exhibit issues with unjustified claims and misleading arguments. These findings highlight the need for robust assessment strategies and AI-aware grading policies in education.