SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems
作者: Rima Hazra, Bikram Ghuku, Ilona Marchenko, Yaroslava Tokarieva, Sayan Layek, Somnath Banerjee, Julia Stoyanovich, Mykola Pechenizkiy
分类: cs.CL
发布日期: 2026-03-18
💡 一句话要点
提出SafeTutors基准以评估AI辅导系统的教学安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI辅导系统 教学安全 风险评估 多轮对话 教育技术 学习科学 模型评估
📋 核心要点
- 现有的AI辅导系统评估方法未能同时考虑教学有效性和安全性,导致潜在的学习风险被忽视。
- 论文提出SafeTutors基准,通过理论基础的风险分类法,系统评估AI辅导系统的安全性与教学法。
- 实验结果显示,所有模型均存在广泛的伤害,且多轮对话显著增加了教学失败率,需针对不同学科制定缓解措施。
📝 摘要(中文)
大型语言模型正在迅速被部署为AI辅导员,但现有评估范式仅孤立地评估问题解决的准确性和一般安全性,未能捕捉模型在学生与辅导员互动中是否同时具备教学有效性和安全性。我们认为,辅导安全与传统LLM安全根本不同:主要风险不是有毒内容,而是通过答案过度披露、误解强化和缺乏支架的悄然侵蚀学习。为系统研究这一失效模式,我们引入了SafeTutors基准,联合评估数学、物理和化学的安全性和教学法。SafeTutors围绕一个理论基础的风险分类法组织,包含11个伤害维度和48个子风险,揭示所有模型均显示广泛的伤害,规模并不可靠,且多轮对话加剧了行为问题,教学失败率从17.7%上升至77.8%。伤害因学科而异,因此缓解措施必须具备学科意识,单轮的“安全/有帮助”结果可能掩盖长期互动中的系统性辅导失败。
🔬 方法详解
问题定义:论文要解决的问题是现有AI辅导系统在评估时未能同时考虑教学有效性和安全性,导致潜在的学习风险未被充分识别和处理。现有方法往往孤立地评估模型的准确性和安全性,无法全面反映其在实际教学中的表现。
核心思路:论文的核心解决思路是引入SafeTutors基准,结合教学法与安全性评估,通过理论基础的风险分类法,系统性地分析AI辅导系统在不同学科中的表现。这种设计旨在揭示模型在实际应用中的潜在风险,尤其是教学过程中的隐性伤害。
技术框架:SafeTutors基准的整体架构包括风险分类法的构建、数据集的设计以及评估指标的制定。具体而言,基准围绕11个伤害维度和48个子风险展开,涵盖数学、物理和化学等学科。评估过程包括模型的多轮对话测试,以观察其在不同情境下的表现。
关键创新:论文的关键创新在于将教学安全与传统的LLM安全区分开来,强调了学习过程中的隐性风险。这一视角的转变使得评估方法更具针对性,能够更好地反映AI辅导系统在实际教学中的有效性与安全性。
关键设计:在技术细节方面,SafeTutors基准的设计包括对不同学科的风险分类、评估指标的量化以及多轮对话的测试框架。通过这些设计,研究能够系统地捕捉到模型在教学过程中的潜在失效模式。具体的损失函数和网络结构细节尚未明确披露。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有模型均存在显著的伤害,且多轮对话导致教学失败率从17.7%上升至77.8%。这一发现强调了在AI辅导系统评估中,需关注长期互动中的潜在风险,而不仅仅是单轮的“安全/有帮助”结果。
🎯 应用场景
该研究的潜在应用领域包括教育技术、智能辅导系统的开发与评估等。通过引入SafeTutors基准,教育工作者和开发者能够更好地理解和优化AI辅导系统的教学效果与安全性,从而提升学生的学习体验和成果。未来,该研究可能推动更为安全和有效的AI教育工具的普及与应用。
📄 摘要(原文)
Large language models are rapidly being deployed as AI tutors, yet current evaluation paradigms assess problem-solving accuracy and generic safety in isolation, failing to capture whether a model is simultaneously pedagogically effective and safe across student-tutor interaction. We argue that tutoring safety is fundamentally different from conventional LLM safety: the primary risk is not toxic content but the quiet erosion of learning through answer over-disclosure, misconception reinforcement, and the abdication of scaffolding. To systematically study this failure mode, we introduce SafeTutors, a benchmark that jointly evaluates safety and pedagogy across mathematics, physics, and chemistry. SafeTutors is organized around a theoretically grounded risk taxonomy comprising 11 harm dimensions and 48 sub-risks drawn from learning-science literature. We uncover that all models show broad harm; scale doesn't reliably help; and multi-turn dialogue worsens behavior, with pedagogical failures rising from 17.7% to 77.8%. Harms also vary by subject, so mitigations must be discipline-aware, and single-turn "safe/helpful" results can mask systematic tutor failure over extended interaction.