SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces
作者: Chang Jin, An Wang, Zeming Wei, Kai Wang, Biaojie Zeng, Qiaosheng Zhang, Chao Yang, Jingjing Qu, Xia Hu, Xingcheng Xu
分类: cs.CR, cs.AI, cs.CL, cs.LG, cs.MA
发布日期: 2026-05-12
💡 一句话要点
SkillSafetyBench:评估技能驱动攻击下Agent的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent安全 技能驱动攻击 安全基准 对抗性测试 大语言模型 可复用技能 安全评估
📋 核心要点
- 现有Agent安全评估忽略了技能模块化引入的攻击面,即使在良性用户请求下,恶意技能或本地文件也可能导致Agent不安全行为。
- SkillSafetyBench通过构建包含对抗性案例的基准,评估Agent在技能驱动攻击下的安全性,涵盖多种任务、风险域和安全类别。
- 实验表明,局部非用户攻击能诱导Agent不安全行为,且失败模式与领域、攻击方法和模型有关,强调了技能解释和工作流信任的重要性。
📝 摘要(中文)
可复用技能正成为扩展大型语言模型Agent的常见接口,它将过程指导与文件、工具、内存和执行环境的访问打包在一起。然而,这种模块化引入了现有安全评估很大程度上忽略的攻击面:即使在用户请求是良性的情况下,与任务相关的技能材料或本地工件也可能引导Agent采取不安全的行为。我们提出了SkillSafetyBench,这是一个可运行的基准,用于评估这种技能介导的安全故障。SkillSafetyBench包括47个任务、6个风险域和30个安全类别中的155个对抗性案例,每个案例都使用特定于案例的基于规则的验证器进行评估。对多个CLI Agent和模型后端的实验表明,局部非用户攻击可以持续诱导不安全行为,并在域、攻击方法和支架-模型配对中具有不同的失败模式。我们的研究结果表明,Agent的安全性不仅取决于模型级别的对齐,还取决于Agent如何解释技能、信任工作流上下文以及通过可执行环境采取行动。
🔬 方法详解
问题定义:现有的大语言模型Agent安全评估主要关注模型本身的对齐,忽略了Agent与外部环境交互时,特别是使用可复用技能时引入的新的攻击面。即使在用户输入是安全的情况下,恶意构造的技能或本地文件也可能诱导Agent执行不安全的操作。现有的方法难以有效评估这种技能驱动的安全性问题。
核心思路:SkillSafetyBench的核心思路是构建一个包含多种对抗性案例的基准测试,这些案例模拟了Agent在使用技能时可能遇到的各种安全风险。通过评估Agent在这些案例中的表现,可以有效地衡量Agent在技能驱动攻击下的安全性。该基准测试的设计考虑了不同的任务、风险域和安全类别,以全面评估Agent的安全性。
技术框架:SkillSafetyBench包含以下主要组成部分:1) 一组预定义的任务,涵盖不同的应用场景;2) 每个任务对应多个对抗性案例,这些案例通过修改技能材料或本地工件来引入安全风险;3) 一组基于规则的验证器,用于评估Agent在每个案例中的行为是否安全。Agent接收任务描述和相关的技能材料,然后执行相应的操作。验证器会根据预定义的规则来判断Agent的行为是否违反安全策略。
关键创新:SkillSafetyBench的关键创新在于它关注了技能驱动的Agent安全问题,这是现有安全评估方法所忽略的。它提供了一个可运行的基准测试,可以有效地评估Agent在实际应用场景中的安全性。此外,SkillSafetyBench还提供了一组基于规则的验证器,可以自动评估Agent的行为,从而降低了评估成本。
关键设计:SkillSafetyBench的对抗性案例设计考虑了多种攻击方法,例如,通过修改技能描述来误导Agent,或者通过在本地文件中注入恶意代码来控制Agent的行为。验证器的设计则基于预定义的安全策略,例如,禁止Agent访问敏感信息或执行危险操作。具体的参数设置和损失函数取决于Agent的具体实现和安全策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的CLI Agent在SkillSafetyBench上表现不佳,容易受到技能驱动的攻击。局部非用户攻击可以持续诱导Agent产生不安全行为,并且不同的领域、攻击方法和模型配对会导致不同的失败模式。例如,某些Agent在处理文件操作时更容易受到攻击,而另一些Agent则在处理网络请求时更容易出现安全问题。这些结果表明,Agent的安全性不仅取决于模型级别的对齐,还取决于Agent如何解释技能、信任工作流上下文以及通过可执行环境采取行动。
🎯 应用场景
SkillSafetyBench可用于评估和改进各种基于技能的Agent的安全性,例如自动化助手、机器人和智能家居系统。通过使用SkillSafetyBench,开发者可以识别Agent中的安全漏洞,并采取相应的措施来提高Agent的安全性,从而降低安全风险,并提高用户对Agent的信任度。该研究有助于推动安全可靠的Agent技术的发展。
📄 摘要(原文)
Reusable skills are becoming a common interface for extending large language model agents, packaging procedural guidance with access to files, tools, memory, and execution environments. However, this modularity introduces attack surfaces that are largely missed by existing safety evaluations: even when the user request is benign, task-relevant skill materials or local artifacts can steer an agent toward unsafe actions. We present SkillSafetyBench, a runnable benchmark for evaluating such skill-mediated safety failures. SkillSafetyBench includes 155 adversarial cases across 47 tasks, 6 risk domains, and 30 safety categories, each evaluated with a case-specific rule-based verifier. Experiments with multiple CLI agents and model backends show that localized non-user attacks can consistently induce unsafe behavior, with distinct failure patterns across domains, attack methods, and scaffold-model pairings. Our findings suggest that agent safety depends not only on model-level alignment, but also on how agents interpret skills, trust workflow context, and act through executable environments.