Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study
作者: Conrad Borchers, Tianze Shou
分类: cs.CL
发布日期: 2025-04-07
备注: Accepted as full paper to the 26th International Conference on Artificial Intelligence in Education (AIED 2025)
💡 一句话要点
评估大语言模型在智能辅导系统中的适应性:一项基准研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 智能辅导系统 适应性学习 提示工程 基准测试
📋 核心要点
- 现有智能辅导系统(ITS)依赖显式知识建模,而大语言模型(LLM)能否复制其适应性尚不明确,面临挑战。
- 论文提出提示变异框架,通过系统移除上下文信息,评估LLM在不同场景下的教学行为适应性和教学合理性。
- 实验表明,即使是最佳LLM也仅略微模仿ITS的适应性,Llama3-70B对学生错误表现出适应性,但整体效果有限。
📝 摘要(中文)
大型语言模型(LLMs)有望成为动态的教学辅助工具。然而,LLMs是否能复制智能辅导系统(ITS)的适应性——即显式地对学生知识和教学策略进行建模——仍不清楚。我们提出了一个提示变异框架,以评估LLM生成的教学行为在ITS的75个真实辅导场景中的适应性和教学合理性。我们系统地从提示中移除关键的上下文组成部分(例如,学生错误和知识组件)来创建每个场景的变体。三个具有代表性的LLM(Llama3-8B、Llama3-70B和GPT-4o)生成了1,350个教学行为。我们使用文本嵌入和随机化测试来衡量每个上下文特征的省略如何影响LLM的输出(适应性),并使用经过验证的导师训练分类器来评估响应质量(教学合理性)。令人惊讶的是,即使是性能最好的模型也仅略微模仿了ITS的适应性。具体而言,Llama3-70B表现出对学生错误的统计显著适应性。虽然Llama3-8B的建议获得了比其他模型更高的教学合理性分数,但它在遵循指令的行为(包括输出格式)方面表现不佳。相比之下,GPT-4o可靠地遵守指令,但倾向于提供过于直接的反馈,这与有效的辅导有所不同,它会提出开放式问题来评估学习者的知识。鉴于这些结果,我们讨论了当前基于LLM的辅导不太可能产生与已知有效的ITS辅导相媲美的学习益处。通过我们的开源基准测试代码,我们贡献了一种可复现的方法来评估LLM的教学适应性和保真度。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在智能辅导系统(ITS)中的适应性,即LLM能否根据学生的具体情况(例如,错误类型、知识掌握程度)提供个性化的教学指导。现有ITS通过显式地建模学生知识和教学策略来实现适应性,而LLM在这方面的能力尚不清楚,现有研究缺乏系统性的评估方法。
核心思路:论文的核心思路是通过系统性地改变输入LLM的提示(prompts),观察LLM输出的教学行为是否会随之改变。如果LLM的输出对关键的上下文信息(例如,学生错误)敏感,则表明LLM具有一定的适应性。通过这种方式,可以量化LLM在不同维度上的适应性,并与ITS进行比较。
技术框架:论文的技术框架主要包含以下几个步骤:1) 从现有的ITS中选取真实的辅导场景;2) 为每个场景构建多个提示变体,通过移除关键的上下文信息来模拟不同的学生状态;3) 使用不同的LLM生成教学行为;4) 使用文本嵌入和随机化测试来衡量LLM输出对上下文信息的敏感程度(适应性);5) 使用经过验证的导师训练分类器来评估LLM输出的教学质量(教学合理性)。
关键创新:论文最重要的技术创新点在于提出了一个可复现的提示变异框架,用于系统性地评估LLM的教学适应性。该框架允许研究人员量化LLM在不同维度上的适应性,并与现有的ITS进行比较。此外,论文还使用了文本嵌入和随机化测试等方法来衡量LLM输出的敏感程度,这是一种新颖的评估方法。
关键设计:论文的关键设计包括:1) 选取了75个真实的辅导场景,保证了评估的实际意义;2) 系统性地移除了关键的上下文信息,例如学生错误和知识组件,创建了多个提示变体;3) 使用了三个具有代表性的LLM(Llama3-8B、Llama3-70B和GPT-4o),保证了评估的全面性;4) 使用了文本嵌入和随机化测试来衡量LLM输出的敏感程度,并使用经过验证的导师训练分类器来评估LLM输出的教学质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是性能最佳的LLM(Llama3-70B)也仅略微模仿了ITS的适应性,虽然Llama3-70B对学生错误表现出统计显著的适应性,但整体效果与ITS仍有差距。Llama3-8B的教学合理性得分较高,但在指令遵循方面存在问题。GPT-4o能够可靠地遵守指令,但倾向于提供过于直接的反馈。
🎯 应用场景
该研究成果可应用于开发基于LLM的个性化辅导系统,提升在线教育的智能化水平。通过评估LLM的教学适应性,可以指导LLM的优化和改进,使其更好地满足学生的个性化学习需求。此外,该研究提出的评估框架也可用于评估其他AI教学系统的性能。
📄 摘要(原文)
Large Language Models (LLMs) hold promise as dynamic instructional aids. Yet, it remains unclear whether LLMs can replicate the adaptivity of intelligent tutoring systems (ITS)--where student knowledge and pedagogical strategies are explicitly modeled. We propose a prompt variation framework to assess LLM-generated instructional moves' adaptivity and pedagogical soundness across 75 real-world tutoring scenarios from an ITS. We systematically remove key context components (e.g., student errors and knowledge components) from prompts to create variations of each scenario. Three representative LLMs (Llama3-8B, Llama3-70B, and GPT-4o) generate 1,350 instructional moves. We use text embeddings and randomization tests to measure how the omission of each context feature impacts the LLMs' outputs (adaptivity) and a validated tutor-training classifier to evaluate response quality (pedagogical soundness). Surprisingly, even the best-performing model only marginally mimics the adaptivity of ITS. Specifically, Llama3-70B demonstrates statistically significant adaptivity to student errors. Although Llama3-8B's recommendations receive higher pedagogical soundness scores than the other models, it struggles with instruction-following behaviors, including output formatting. By contrast, GPT-4o reliably adheres to instructions but tends to provide overly direct feedback that diverges from effective tutoring, prompting learners with open-ended questions to gauge knowledge. Given these results, we discuss how current LLM-based tutoring is unlikely to produce learning benefits rivaling known-to-be-effective ITS tutoring. Through our open-source benchmarking code, we contribute a reproducible method for evaluating LLMs' instructional adaptivity and fidelity.