SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs

作者: Sihang, Zhao, Kangrui Yu, Youliang Yuan, Pinjia He, Hongyi Wen

分类: cs.CL

发布日期: 2026-04-24

备注: ACL 2026 Main

🔗 代码/项目: GITHUB

💡 一句话要点

提出SHAPE基准与图增强教学管线，提升教育LLM的安全性、有效性和教学性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 教育LLM 教学越狱 知识掌握图 图增强 智能辅导

📋 核心要点

现有教育LLM易受“教学越狱”攻击，学生通过诱导性提问直接获取答案，而非学习过程。
论文提出图增强教学管线，利用知识掌握图推断先决概念和掌握差距，指导LLM生成教学内容或直接解答。
实验表明，该方法在提升安全性的同时，保持了LLM在教育场景中的有效性，并构建了SHAPE基准。

📝 摘要（中文）

大型语言模型（LLM）已在教育场景中得到广泛应用。我们发现当前教育LLM存在一个关键漏洞，即教学越狱，学生使用诱导性提示来获取答案，而不是获得脚手架式的指导。为了实现系统研究，我们使用知识掌握图统一并形式化了安全、有效和教学行为，并引入了SHAPE，一个包含9,087个学生-问题对的基准，用于评估对抗压力下的辅导行为。我们提出了一种图增强的辅导管线，该管线从查询中推断先决概念，识别掌握差距，并通过显式门控在指导和问题解决之间路由生成。跨多个LLM的实验表明，我们的方法在两种教学越狱设置下显着提高了安全性，同时在相同的评估协议下保持了接近上限的有效性。我们的代码和数据可在https://github.com/MAPS-research/SHaPE 获得。

🔬 方法详解

问题定义：现有教育LLM容易受到“教学越狱”攻击，学生可以通过精心设计的提示，绕过教学过程，直接获得答案，从而无法达到教育的目的。现有的方法缺乏对学生知识掌握情况的准确评估，以及在教学和直接解答之间进行有效切换的能力。

核心思路：论文的核心思路是利用知识掌握图来建模知识之间的依赖关系，并基于此图来推断学生可能存在的知识掌握差距。然后，根据这些差距，决定是提供教学指导还是直接解答问题。通过显式的门控机制，控制教学和解答之间的平衡。

技术框架：整体框架包含以下几个主要模块：1) 查询理解模块：分析学生的问题，提取关键概念。2) 知识掌握图模块：利用预定义的知识掌握图，确定问题所需的先决概念。3) 掌握差距识别模块：根据学生的历史表现（如果可用）或通过提问，评估学生对先决概念的掌握程度。4) 门控模块：根据掌握差距，决定是生成教学内容还是直接解答问题。5) 生成模块：根据门控模块的决策，生成相应的教学内容或答案。

关键创新：最重要的技术创新点在于将知识掌握图引入到教育LLM中，并利用该图来指导教学过程。通过显式的门控机制，实现了教学和解答之间的动态切换，从而提高了LLM的安全性、有效性和教学性。与现有方法相比，该方法能够更准确地评估学生的知识掌握情况，并提供更个性化的教学指导。

关键设计：知识掌握图的构建方式（例如，手动构建或自动构建），门控模块的具体实现（例如，使用神经网络或规则），以及生成模块所使用的LLM模型。此外，损失函数的设计也至关重要，需要平衡安全性、有效性和教学性三个目标。具体的参数设置和网络结构在论文中可能有所描述，但此处无法详细展开。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在两种教学越狱设置下显着提高了安全性，同时在相同的评估协议下保持了接近上限的有效性。具体的数据指标（例如，安全性提升的百分比、有效性得分等）需要在论文中查找。此外，论文还构建了一个包含9,087个学生-问题对的SHAPE基准，为教育LLM的研究提供了有力的支持。

🎯 应用场景

该研究成果可应用于智能辅导系统、在线教育平台和个性化学习工具等领域。通过提升教育LLM的安全性、有效性和教学性，可以为学生提供更优质、更个性化的学习体验，帮助他们更好地掌握知识，提高学习效率。未来，该技术有望在教育领域发挥更大的作用，推动教育的智能化和个性化发展。

📄 摘要（原文）

Large Language Models (LLMs) have been widely explored in educational scenarios. We identify a critical vulnerability in current educational LLMs, pedagogical jailbreaks, where students use answer-inducing prompts to elicit solutions rather than scaffolded instructions. To enable systematic study, we unify and formalize safe, helpful, and pedagogical behaviors with a knowledge-mastery graph and introduce SHAPE, a benchmark of 9,087 student-question pairs for evaluating tutoring behavior under adversarial pressure. We propose a graph-augmented tutoring pipeline that infers prerequisite concepts from queries, identifies mastery gaps, and routes generation between instructing and problem-solving via explicit gating. Experiments across multiple LLMs show that our method yields significantly improved safety under two pedagogical jailbreak settings, while maintaining near-ceiling helpfulness under the same evaluation protocol. Our code and data are available at https://github.com/MAPS-research/SHaPE

SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理