Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving

📄 arXiv: 2503.14630v1 📥 PDF

作者: Priscylla Silva, Evandro Costa

分类: cs.SE, cs.AI, cs.LG

发布日期: 2025-03-18


💡 一句话要点

评估大型语言模型在编程问题解决中自动生成反馈的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自动反馈生成 编程教育 推理错误识别 代码分析

📋 核心要点

  1. 现有编程学习反馈方法效率低,难以大规模个性化,阻碍学生高效学习。
  2. 利用大型语言模型自动生成反馈,旨在提高反馈效率和个性化程度。
  3. 实验评估了多个LLM在识别学生代码推理错误方面的能力,揭示了其潜力和局限。

📝 摘要(中文)

提供有效的反馈对于学生在编程问题解决中的学习至关重要。大型语言模型(LLMs)已成为自动生成反馈的潜在工具。然而,它们在识别学生代码中的推理错误方面的可靠性和能力仍未被充分理解。本研究评估了四种LLM(GPT-4o、GPT-4o mini、GPT-4-Turbo和Gemini-1.5-pro)在一个包含45个学生解决方案的基准数据集上的性能。我们评估了这些模型提供准确和有见地的反馈的能力,特别是在识别推理错误方面。分析表明,63%的反馈提示是准确和完整的,而37%包含错误,包括不正确的行识别、有缺陷的解释或幻觉问题。这些发现突出了LLM在编程教育中的潜力和局限性,并强调需要改进以提高可靠性并最大限度地减少教育应用中的风险。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在自动生成编程学习反馈方面的能力。现有方法依赖于人工反馈或预定义的规则,效率低下且难以扩展到大规模个性化学习场景。学生代码中存在的推理错误难以被现有方法准确识别和有效反馈。

核心思路:论文的核心思路是利用LLMs强大的自然语言理解和生成能力,对学生提交的编程代码进行分析,自动识别其中的错误,并生成相应的反馈提示。通过评估不同LLMs在特定编程问题数据集上的表现,分析其在识别推理错误方面的能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1)构建包含学生编程解决方案的基准数据集;2)选择多个具有代表性的LLMs(GPT-4o、GPT-4o mini、GPT-4-Turbo和Gemini-1.5-pro);3)将学生代码输入到LLMs中,要求其生成反馈提示;4)人工评估LLMs生成的反馈提示的准确性和完整性,特别是其识别推理错误的能力。

关键创新:该研究的关键创新在于系统性地评估了多个先进LLMs在自动编程反馈生成任务中的性能,并深入分析了它们在识别学生代码推理错误方面的能力。与以往研究相比,该研究更加关注LLMs在教育场景下的实际应用,并揭示了其潜在的局限性。

关键设计:研究的关键设计包括:1)构建了一个包含45个学生解决方案的基准数据集,涵盖了常见的编程错误类型;2)选择了多个具有代表性的LLMs,以评估不同模型的性能差异;3)采用人工评估的方式,对LLMs生成的反馈提示进行细致的分析,包括准确性、完整性、以及是否能够正确识别推理错误。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,63%的LLM反馈提示是准确和完整的,能够有效帮助学生纠正错误。然而,37%的反馈提示包含错误,包括不正确的行识别、有缺陷的解释或幻觉问题。GPT-4o在所有模型中表现最佳,但仍存在改进空间。这些结果揭示了LLM在编程教育中的潜力和局限性。

🎯 应用场景

该研究成果可应用于在线编程教育平台、智能编程辅导系统等领域,为学生提供个性化、实时的编程反馈,提高学习效率和效果。未来,通过不断改进LLMs的性能和可靠性,有望实现更加智能化的编程教育,降低教育成本,促进编程教育的普及。

📄 摘要(原文)

Providing effective feedback is important for student learning in programming problem-solving. In this sense, Large Language Models (LLMs) have emerged as potential tools to automate feedback generation. However, their reliability and ability to identify reasoning errors in student code remain not well understood. This study evaluates the performance of four LLMs (GPT-4o, GPT-4o mini, GPT-4-Turbo, and Gemini-1.5-pro) on a benchmark dataset of 45 student solutions. We assessed the models' capacity to provide accurate and insightful feedback, particularly in identifying reasoning mistakes. Our analysis reveals that 63\% of feedback hints were accurate and complete, while 37\% contained mistakes, including incorrect line identification, flawed explanations, or hallucinated issues. These findings highlight the potential and limitations of LLMs in programming education and underscore the need for improvements to enhance reliability and minimize risks in educational applications.