How Real Is AI Tutoring? Comparing Simulated and Human Dialogues in One-on-One Instruction
作者: Ruijia Li, Yuan-Hao Jiang, Jiatong Wang, Bo Jiang
分类: cs.AI, cs.CL, cs.MA
发布日期: 2025-09-02
备注: Proceedings of the 33rd International Conference on Computers in Education (ICCE 2025). Asia-Pacific Society for Computers in Education
💡 一句话要点
对比AI与人类辅导对话,揭示AI在教学互动深度上的局限性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI辅导 教育对话系统 人机对话 认知网络分析 IRF编码
📋 核心要点
- 大型语言模型在教育对话中缺乏教学深度,难以有效促进学生高阶思维。
- 通过对比AI模拟和人类辅导对话,分析二者在结构和行为上的差异。
- 实验表明,人类对话在认知引导和教学循环上优于AI,揭示了AI的局限性。
📝 摘要(中文)
启发式和支架式师生对话被广泛认为是培养学生高阶思维和深度学习的关键。然而,大型语言模型(LLMs)目前在生成教学上丰富的互动方面面临挑战。本研究系统地调查了AI模拟和真实人类辅导对话之间的结构和行为差异。我们使用启动-响应-反馈(IRF)编码方案和认知网络分析(ENA)进行了定量比较。结果表明,人类对话在话语长度、提问(I-Q)和一般反馈(F-F)行为方面明显优于AI对话。更重要的是,ENA结果揭示了互动模式的根本差异:人类对话更具认知引导性和多样性,围绕着一个“问题-事实性回答-反馈”的教学循环,清晰地反映了教学指导和学生驱动的思考;相比之下,模拟对话呈现出结构简化和行为收敛的模式,围绕着一个“解释-简单回答”的循环,本质上是教师和学生之间简单的信息传递。这些发现揭示了当前AI生成的辅导的关键局限性,并为设计和评估更具教学效果的生成式教育对话系统提供了经验指导。
🔬 方法详解
问题定义:当前大型语言模型在模拟师生对话时,难以生成具有启发性和支架作用的教学互动,无法有效促进学生的高阶思维和深度学习。现有方法生成的对话往往缺乏认知引导和教学策略,导致教学效果不佳。
核心思路:通过对比分析AI模拟对话和真实人类辅导对话,量化二者在结构和行为上的差异,从而揭示AI在教学互动方面的局限性。核心在于识别人类对话中存在的、AI难以复现的教学模式和认知策略。
技术框架:研究采用以下步骤:1) 构建AI模拟对话和人类辅导对话数据集;2) 使用启动-响应-反馈(IRF)编码方案对对话进行标注,提取关键的互动行为;3) 使用认知网络分析(ENA)对对话的互动模式进行建模和可视化;4) 对比分析AI和人类对话在IRF编码和ENA结果上的差异。
关键创新:本研究的关键创新在于:1) 系统性地对比分析了AI模拟和人类辅导对话的差异,为评估AI在教育领域的应用提供了新的视角;2) 使用IRF编码和ENA方法,从结构和行为两个层面深入分析了对话的互动模式,揭示了AI在教学互动深度上的局限性;3) 提出了“问题-事实性回答-反馈”教学循环的概念,为设计更有效的AI辅导系统提供了理论指导。
关键设计:IRF编码方案用于标注对话中的启动(Initiation)、响应(Response)和反馈(Feedback)行为。ENA方法用于构建对话的认知网络,节点表示不同的互动行为,边表示行为之间的关联强度。通过对比AI和人类对话的认知网络结构,可以分析二者在互动模式上的差异。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。
📊 实验亮点
研究结果表明,人类对话在话语长度、提问(I-Q)和一般反馈(F-F)行为方面明显优于AI对话。ENA结果揭示,人类对话围绕“问题-事实性回答-反馈”的教学循环,而AI对话则简化为“解释-简单回答”的循环,表明AI在认知引导和教学深度上存在明显不足。
🎯 应用场景
该研究成果可应用于改进AI辅导系统,使其能够生成更具启发性和支架作用的教学互动。通过模仿人类教师的教学策略和认知模式,AI系统可以更好地引导学生进行深度学习和高阶思维。此外,该研究还可以为教育对话系统的设计和评估提供经验指导,促进教育技术的创新发展。
📄 摘要(原文)
Heuristic and scaffolded teacher-student dialogues are widely regarded as critical for fostering students' higher-order thinking and deep learning. However, large language models (LLMs) currently face challenges in generating pedagogically rich interactions. This study systematically investigates the structural and behavioral differences between AI-simulated and authentic human tutoring dialogues. We conducted a quantitative comparison using an Initiation-Response-Feedback (IRF) coding scheme and Epistemic Network Analysis (ENA). The results show that human dialogues are significantly superior to their AI counterparts in utterance length, as well as in questioning (I-Q) and general feedback (F-F) behaviors. More importantly, ENA results reveal a fundamental divergence in interactional patterns: human dialogues are more cognitively guided and diverse, centered around a "question-factual response-feedback" teaching loop that clearly reflects pedagogical guidance and student-driven thinking; in contrast, simulated dialogues exhibit a pattern of structural simplification and behavioral convergence, revolving around an "explanation-simplistic response" loop that is essentially a simple information transfer between the teacher and student. These findings illuminate key limitations in current AI-generated tutoring and provide empirical guidance for designing and evaluating more pedagogically effective generative educational dialogue systems.