Evaluating LLMs for Answering Student Questions in Introductory Programming Courses
作者: Thomas Van Mullem, Bart Mesuere, Peter Dawyndt
分类: cs.AI
发布日期: 2026-03-30
💡 一句话要点
评估LLM在编程入门课程中回答学生问题的能力,并提出评估框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 编程教育 学生问题解答 教学评估 LLM-as-a-Judge
📋 核心要点
- 现有方法难以有效评估LLM在编程教育中回答学生问题的能力,缺乏针对教育场景的评估指标。
- 论文提出一种定制的LLM-as-a-Judge指标,用于评估LLM生成答案的教学准确性,并构建了可复现的评估流程。
- 实验结果表明,Gemini 3 flash等模型在回答学生编程问题方面超越了典型教育者的水平,与专家标准高度一致。
📝 摘要(中文)
大型语言模型(LLM)的快速发展为编程教育带来了机遇和挑战。学生越来越多地使用生成式AI工具,但直接访问完整解决方案会阻碍学习过程。同时,教育工作者在提供及时、个性化的反馈时面临巨大的工作量和可扩展性挑战。本研究旨在评估LLM在CS1编程课程中安全有效地协助教育者回答学生问题的能力。为此,我们建立了一个严格、可复现的评估过程,通过整理来自学习管理系统的170个真实学生问题的数据集,并配以领域专家编写的ground-truth答案。由于传统的文本匹配指标不足以评估开放式的教育回答,我们开发并验证了一种定制的LLM-as-a-Judge指标,该指标针对评估教学准确性进行了优化。我们的研究结果表明,Gemini 3 flash等模型可以超越典型教育者回答的质量基线,与专家教学标准高度一致。为了减轻持续存在的幻觉等风险,并确保与课程特定背景保持一致,我们提倡“教师在环”的实施方式。最后,我们将我们的方法抽象为一个与任务无关的评估框架,倡导教育LLM工具的开发从临时的、部署后的测试转变为可量化的、部署前的验证过程。
🔬 方法详解
问题定义:论文旨在解决编程入门课程中,如何利用LLM辅助教师回答学生问题,并保证回答的教学质量和准确性的问题。现有方法,如传统的文本匹配指标,无法有效评估LLM在教育场景下的回答质量,且缺乏针对编程教育的专业评估标准。
核心思路:论文的核心思路是构建一个可量化的、预部署的评估框架,用于评估LLM在回答学生编程问题时的教学准确性。通过定制LLM-as-a-Judge指标,并结合专家知识,对LLM的回答进行综合评估,从而确保LLM能够提供高质量的教学辅助。
技术框架:整体框架包含以下几个主要阶段:1) 数据集构建:收集来自学习管理系统的真实学生问题,并由领域专家提供ground-truth答案。2) LLM回答生成:使用不同的LLM模型生成对学生问题的回答。3) LLM-as-a-Judge评估:使用定制的LLM-as-a-Judge指标,评估LLM生成答案的教学准确性。4) 结果分析与验证:分析评估结果,并与专家评估结果进行对比,验证评估框架的有效性。
关键创新:最重要的技术创新点在于定制的LLM-as-a-Judge指标。该指标不同于传统的文本匹配指标,它能够更准确地评估LLM生成答案的教学准确性,包括答案的完整性、正确性、清晰度和教学风格等方面。与现有方法相比,该指标更贴合教育场景的需求,能够更有效地评估LLM的教学能力。
关键设计:LLM-as-a-Judge指标的设计关键在于prompt的设计,需要包含清晰的评估标准和指导,以引导LLM进行准确的评估。此外,还需要对LLM的评估结果进行校准,以确保评估的可靠性和一致性。论文中具体使用的prompt和校准方法未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gemini 3 flash等模型在回答学生编程问题方面表现出色,能够超越典型教育者的回答质量基线,与专家教学标准高度一致。该研究验证了LLM在编程教育中的潜力,并为教育AI的开发和应用提供了有价值的参考。
🎯 应用场景
该研究成果可应用于在线教育平台、编程学习工具等领域,帮助教师更高效地回答学生问题,提供个性化的学习辅导。通过预先评估LLM的教学能力,可以确保LLM在教育场景中的安全性和有效性,提升学生的学习体验和效果。未来,该方法可以推广到其他学科领域,构建更完善的教育AI评估体系。
📄 摘要(原文)
The rapid emergence of Large Language Models (LLMs) presents both opportunities and challenges for programming education. While students increasingly use generative AI tools, direct access often hinders the learning process by providing complete solutions rather than pedagogical hints. Concurrently, educators face significant workload and scalability challenges when providing timely, personalized feedback. This study investigates the capabilities of LLMs to safely and effectively assist educators in answering student questions within a CS1 programming course. To achieve this, we established a rigorous, reproducible evaluation process by curating a benchmark dataset of 170 authentic student questions from a learning management system, paired with ground-truth responses authored by subject matter experts. Because traditional text-matching metrics are insufficient for evaluating open-ended educational responses, we developed and validated a custom LLM-as-a-Judge metric optimized for assessing pedagogical accuracy. Our findings demonstrate that models, such as Gemini 3 flash, can surpass the quality baseline of typical educator responses, achieving high alignment with expert pedagogical standards. To mitigate persistent risks like hallucination and ensure alignment with course-specific context, we advocate for a "teacher-in-the-loop" implementation. Finally, we abstract our methodology into a task-agnostic evaluation framework, advocating for a shift in the development of educational LLM tools from ad-hoc, post-deployment testing to a quantifiable, pre-deployment validation process.