SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs
作者: Sihang, Zhao, Kangrui Yu, Youliang Yuan, Pinjia He, Hongyi Wen
分类: cs.CL
发布日期: 2026-04-24
备注: ACL 2026 Main
🔗 代码/项目: GITHUB
💡 一句话要点
提出SHAPE基准与图增强教学管线,提升教育LLM的安全性、有效性和教学性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 教育LLM 教学越狱 知识掌握图 图增强 智能辅导
📋 核心要点
- 现有教育LLM易受“教学越狱”攻击,学生通过诱导性提问直接获取答案,而非学习过程。
- 论文提出图增强教学管线,利用知识掌握图推断先决概念和掌握差距,指导LLM生成教学内容或直接解答。
- 实验表明,该方法在提升安全性的同时,保持了LLM在教育场景中的有效性,并构建了SHAPE基准。
📝 摘要(中文)
大型语言模型(LLM)已在教育场景中得到广泛应用。我们发现当前教育LLM存在一个关键漏洞,即教学越狱,学生使用诱导性提示来获取答案,而不是获得脚手架式的指导。为了实现系统研究,我们使用知识掌握图统一并形式化了安全、有效和教学行为,并引入了SHAPE,一个包含9,087个学生-问题对的基准,用于评估对抗压力下的辅导行为。我们提出了一种图增强的辅导管线,该管线从查询中推断先决概念,识别掌握差距,并通过显式门控在指导和问题解决之间路由生成。跨多个LLM的实验表明,我们的方法在两种教学越狱设置下显着提高了安全性,同时在相同的评估协议下保持了接近上限的有效性。我们的代码和数据可在https://github.com/MAPS-research/SHaPE 获得。
🔬 方法详解
问题定义:现有教育LLM容易受到“教学越狱”攻击,学生可以通过精心设计的提示,绕过教学过程,直接获得答案,从而无法达到教育的目的。现有的方法缺乏对学生知识掌握情况的准确评估,以及在教学和直接解答之间进行有效切换的能力。
核心思路:论文的核心思路是利用知识掌握图来建模知识之间的依赖关系,并基于此图来推断学生可能存在的知识掌握差距。然后,根据这些差距,决定是提供教学指导还是直接解答问题。通过显式的门控机制,控制教学和解答之间的平衡。
技术框架:整体框架包含以下几个主要模块:1) 查询理解模块:分析学生的问题,提取关键概念。2) 知识掌握图模块:利用预定义的知识掌握图,确定问题所需的先决概念。3) 掌握差距识别模块:根据学生的历史表现(如果可用)或通过提问,评估学生对先决概念的掌握程度。4) 门控模块:根据掌握差距,决定是生成教学内容还是直接解答问题。5) 生成模块:根据门控模块的决策,生成相应的教学内容或答案。
关键创新:最重要的技术创新点在于将知识掌握图引入到教育LLM中,并利用该图来指导教学过程。通过显式的门控机制,实现了教学和解答之间的动态切换,从而提高了LLM的安全性、有效性和教学性。与现有方法相比,该方法能够更准确地评估学生的知识掌握情况,并提供更个性化的教学指导。
关键设计:知识掌握图的构建方式(例如,手动构建或自动构建),门控模块的具体实现(例如,使用神经网络或规则),以及生成模块所使用的LLM模型。此外,损失函数的设计也至关重要,需要平衡安全性、有效性和教学性三个目标。具体的参数设置和网络结构在论文中可能有所描述,但此处无法详细展开。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在两种教学越狱设置下显着提高了安全性,同时在相同的评估协议下保持了接近上限的有效性。具体的数据指标(例如,安全性提升的百分比、有效性得分等)需要在论文中查找。此外,论文还构建了一个包含9,087个学生-问题对的SHAPE基准,为教育LLM的研究提供了有力的支持。
🎯 应用场景
该研究成果可应用于智能辅导系统、在线教育平台和个性化学习工具等领域。通过提升教育LLM的安全性、有效性和教学性,可以为学生提供更优质、更个性化的学习体验,帮助他们更好地掌握知识,提高学习效率。未来,该技术有望在教育领域发挥更大的作用,推动教育的智能化和个性化发展。
📄 摘要(原文)
Large Language Models (LLMs) have been widely explored in educational scenarios. We identify a critical vulnerability in current educational LLMs, pedagogical jailbreaks, where students use answer-inducing prompts to elicit solutions rather than scaffolded instructions. To enable systematic study, we unify and formalize safe, helpful, and pedagogical behaviors with a knowledge-mastery graph and introduce SHAPE, a benchmark of 9,087 student-question pairs for evaluating tutoring behavior under adversarial pressure. We propose a graph-augmented tutoring pipeline that infers prerequisite concepts from queries, identifies mastery gaps, and routes generation between instructing and problem-solving via explicit gating. Experiments across multiple LLMs show that our method yields significantly improved safety under two pedagogical jailbreak settings, while maintaining near-ceiling helpfulness under the same evaluation protocol. Our code and data are available at https://github.com/MAPS-research/SHaPE