CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models

📄 arXiv: 2602.05633v1 📥 PDF

作者: Rui Jia, Ruiyi Lan, Fengrui Liu, Zhongxiang Dai, Bo Jiang, Jing Shao, Jingyuan Chen, Guandong Xu, Fei Wu, Min Zhang

分类: cs.CL

发布日期: 2026-02-05


💡 一句话要点

提出CASTLE:一个综合性评测基准,用于评估大语言模型中面向学生的个性化安全。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 个性化安全 教育安全 评测基准 学生属性

📋 核心要点

  1. 现有LLM安全评估缺乏对学生认知和心理异质性的考虑,无法捕捉相同回复对不同学生造成的不同伤害。
  2. 论文提出“学生定制的个性化安全”概念,构建CASTLE基准,包含教育安全风险和学生属性,并设计评估指标。
  3. 实验表明,现有SOTA LLM在CASTLE基准上表现不佳,个性化安全保障存在显著缺陷,面临严峻挑战。

📝 摘要(中文)

大型语言模型(LLMs)推动了教育领域个性化学习的发展。然而,LLMs固有的生成机制常常对相同的提示产生同质化的回应。这种“一刀切”的机制忽略了学生在认知和心理上的巨大异质性,从而对弱势群体构成潜在的安全风险。现有的安全评估主要依赖于与上下文无关的指标,如事实准确性、偏见或毒性,无法捕捉到相同回应在不同学生属性下可能造成的不同危害。为了解决这一差距,我们提出了学生定制的个性化安全概念,并基于教育理论构建了CASTLE。该基准涵盖了15种教育安全风险和14种学生属性,包含92,908个双语场景。我们进一步设计了三个评估指标:风险敏感性(Risk Sensitivity),衡量模型检测风险的能力;情感共情(Emotional Empathy),评估模型识别学生状态的能力;以及学生对齐(Student Alignment),评估模型回应与学生属性之间的匹配程度。对18个SOTA LLMs的实验表明,CASTLE提出了一个重大挑战:所有模型的平均安全评级均低于2.3(满分5分),表明个性化安全保障方面存在重大缺陷。

🔬 方法详解

问题定义:论文旨在解决现有大型语言模型(LLMs)在教育场景中,对不同认知和心理状态的学生提供个性化安全保障不足的问题。现有安全评估方法主要关注事实准确性、偏见和毒性等通用指标,忽略了学生个体差异,导致LLMs可能对特定学生群体造成潜在伤害。

核心思路:论文的核心思路是引入“学生定制的个性化安全”概念,即根据学生的具体属性(如年龄、性别、心理状态等)来评估LLM回应的安全性。通过构建包含多种学生属性和教育安全风险的基准数据集,并设计相应的评估指标,来全面衡量LLM在个性化安全方面的表现。

技术框架:CASTLE基准的构建流程主要包括以下几个阶段:1) 定义教育安全风险:基于教育理论,确定15种常见的教育安全风险,例如网络欺凌、心理压力等。2) 收集学生属性:选取14种影响学生认知和心理状态的属性,例如年龄、性别、年级、家庭背景等。3) 构建双语场景:针对每种安全风险和学生属性组合,生成相应的提示和参考答案,形成包含92,908个场景的双语数据集。4) 设计评估指标:提出风险敏感性、情感共情和学生对齐三个指标,分别衡量LLM检测风险、识别学生状态和生成个性化回应的能力。

关键创新:论文最重要的创新点在于提出了“学生定制的个性化安全”这一概念,并将学生属性纳入安全评估的考量范围。这与现有安全评估方法只关注通用指标形成了鲜明对比,更贴近教育场景的实际需求。

关键设计:在评估指标方面,风险敏感性通过计算模型识别风险提示的准确率来衡量;情感共情通过比较模型生成的回应与参考答案的情感倾向来评估;学生对齐则通过计算模型生成的回应与学生属性之间的相关性来衡量。具体实现细节和计算公式在论文中有详细描述。

📊 实验亮点

实验结果表明,在CASTLE基准上,18个SOTA LLM的平均安全评级均低于2.3(满分5分),表明现有LLM在个性化安全方面存在显著不足。这突显了CASTLE基准的挑战性和重要性,并为未来研究指明了方向。

🎯 应用场景

该研究成果可应用于开发更安全、更个性化的教育类LLM应用。通过CASTLE基准,开发者可以评估和改进LLM在处理不同学生群体时的安全性,避免产生有害或不适当的回应。此外,该研究也为教育领域的AI伦理和安全提供了新的视角,有助于推动相关政策的制定。

📄 摘要(原文)

Large language models (LLMs) have advanced the development of personalized learning in education. However, their inherent generation mechanisms often produce homogeneous responses to identical prompts. This one-size-fits-all mechanism overlooks the substantial heterogeneity in students cognitive and psychological, thereby posing potential safety risks to vulnerable groups. Existing safety evaluations primarily rely on context-independent metrics such as factual accuracy, bias, or toxicity, which fail to capture the divergent harms that the same response might cause across different student attributes. To address this gap, we propose the concept of Student-Tailored Personalized Safety and construct CASTLE based on educational theories. This benchmark covers 15 educational safety risks and 14 student attributes, comprising 92,908 bilingual scenarios. We further design three evaluation metrics: Risk Sensitivity, measuring the model ability to detect risks; Emotional Empathy, evaluating the model capacity to recognize student states; and Student Alignment, assessing the match between model responses and student attributes. Experiments on 18 SOTA LLMs demonstrate that CASTLE poses a significant challenge: all models scored below an average safety rating of 2.3 out of 5, indicating substantial deficiencies in personalized safety assurance.