Large Language Models Approach Expert Pedagogical Quality in Math Tutoring but Differ in Instructional and Linguistic Profiles
作者: Ramatu Oiza Abdulsalam, Segun Aroyehun
分类: cs.CL, cs.CY
发布日期: 2025-12-23
💡 一句话要点
大型语言模型在数学辅导中接近专家级教学质量,但在教学和语言风格上存在差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学辅导 教学策略 语言特征 智能教育系统
📋 核心要点
- 现有研究对大型语言模型在数学辅导中的应用进行了探索,但其教学行为与人类专家实践的差距尚不明确。
- 本文通过对比专家、新手导师和大型语言模型的回复,分析教学策略和语言特征,评估LLM的教学质量。
- 研究发现,大型语言模型在感知教学质量上接近专家水平,但在重述、复述等策略上存在差异。
📝 摘要(中文)
最近的研究探索了使用大型语言模型生成数学辅导回复,但其教学行为与人类专家实践的吻合程度仍不清楚。本文通过受控的、回合级别的比较来研究这个问题,其中人类专家导师、新手导师和多个大型语言模型对同一组数学补救对话回合做出响应。我们考察了教学策略和语言特征,包括重述和复述、强调准确性、词汇多样性、可读性、礼貌性和主导性。我们发现,大型语言模型平均而言接近专家级的感知教学质量,但在教学和语言风格上表现出系统性差异。特别是,大型语言模型倾向于少用专家人类导师特有的重述和复述策略,同时产生更长、词汇更多样、更礼貌的回复。统计分析表明,重述和复述、词汇多样性和强调准确性与感知教学质量呈正相关,而更高水平的主导性和礼貌语言呈负相关。总的来说,最近的大型语言模型表现出与专家人类导师相当的感知教学质量水平,同时依赖于不同的教学和语言策略。这些发现强调了在评估人类导师和智能辅导系统的辅导回复时,分析教学策略和语言特征的价值。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在数学辅导场景下的教学质量,并分析其与人类专家导师在教学策略和语言风格上的差异。现有方法缺乏对LLM教学行为的细致分析,未能充分理解其优势与不足。
核心思路:论文的核心思路是通过受控实验,将LLM、人类专家导师和新手导师置于相同的数学辅导场景中,对比分析他们对学生问题的回复。通过量化教学策略(如重述、强调准确性)和语言特征(如词汇多样性、礼貌性),评估LLM的教学质量,并找出其与人类专家的差异。
技术框架:该研究采用了一种turn-level的比较框架,即在每个对话回合中,所有参与者(LLM、专家导师、新手导师)都对学生的问题做出回复。然后,研究人员对这些回复进行分析,提取教学策略和语言特征,并使用统计方法分析这些特征与感知教学质量之间的关系。整体流程包括:问题收集 -> 回复生成 -> 特征提取 -> 统计分析 -> 质量评估。
关键创新:该研究的关键创新在于其细粒度的分析方法,不仅关注LLM的整体教学质量,还深入分析了其在具体教学策略和语言特征上的表现。通过对比LLM与人类专家的差异,揭示了LLM的优势与不足,为改进LLM的教学能力提供了方向。
关键设计:研究中使用了多个大型语言模型,并设计了一系列指标来量化教学策略和语言特征。例如,使用词汇多样性指标来衡量回复的丰富程度,使用礼貌性指标来衡量回复的友好程度。此外,研究还使用了统计模型来分析这些指标与感知教学质量之间的关系,从而确定哪些教学策略和语言特征对教学质量有积极影响。
🖼️ 关键图片
📊 实验亮点
研究发现,大型语言模型在感知教学质量上接近专家水平,但在重述和复述策略上使用较少,而回复更长、词汇更多样、更礼貌。统计分析表明,重述和复述、词汇多样性和强调准确性与感知教学质量呈正相关,而更高水平的主导性和礼貌语言呈负相关。
🎯 应用场景
该研究成果可应用于智能教育系统、在线辅导平台等领域,帮助提升AI辅导的教学质量和个性化程度。通过改进LLM的教学策略和语言风格,使其更接近人类专家水平,从而为学生提供更有效的学习支持。此外,该研究也为评估和改进其他类型的智能对话系统提供了借鉴。
📄 摘要(原文)
Recent work has explored the use of large language models for generating tutoring responses in mathematics, yet it remains unclear how closely their instructional behavior aligns with expert human practice. We examine this question using a controlled, turn-level comparison in which expert human tutors, novice human tutors, and multiple large language models respond to the same set of math remediation conversation turns. We examine both instructional strategies and linguistic characteristics of tutoring responses, including restating and revoicing, pressing for accuracy, lexical diversity, readability, politeness, and agency. We find that large language models approach expert levels of perceived pedagogical quality on average but exhibit systematic differences in their instructional and linguistic profiles. In particular, large language models tend to underuse restating and revoicing strategies characteristic of expert human tutors, while producing longer, more lexically diverse, and more polite responses. Statistical analyses show that restating and revoicing, lexical diversity, and pressing for accuracy are positively associated with perceived pedagogical quality, whereas higher levels of agentic and polite language are negatively associated. Overall, recent large language models exhibit levels of perceived pedagogical quality comparable to expert human tutors, while relying on different instructional and linguistic strategies. These findings underscore the value of analyzing instructional strategies and linguistic characteristics when evaluating tutoring responses across human tutors and intelligent tutoring systems.