SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety
作者: Zhe Liu, Zonghao Ying, Wenxin Zhang, Quanchen Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Hao Peng
分类: cs.CR, cs.AI
发布日期: 2026-05-07
备注: Accepted by ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出SafeHarbor框架:通过分层记忆增强与自演化机制,解决LLM智能体安全防御中的过度拒绝问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 智能体安全 分层记忆 对抗防御 信息熵 工具调用
📋 核心要点
- 现有LLM智能体安全防御机制常陷入“过度拒绝”困境,即在拦截恶意攻击的同时,显著降低了模型处理良性任务的实用性。
- 提出SafeHarbor框架,通过上下文感知的防御规则提取、局部层级记忆系统及基于信息熵的自演化机制,实现动态且精确的安全决策。
- 实验证明该方法在GPT-4o上实现了63.6%的良性任务实用性,并保持了超过93%的恶意请求拒绝率,优于现有主流防御基线。
📝 摘要(中文)
随着基础模型的快速演进,大语言模型(LLM)智能体展现出强大的工具使用能力,但也带来了恶意操纵执行有害工具的风险。现有防御机制虽有效,却常导致“过度拒绝”问题,即在提升安全性的同时牺牲了良性任务的实用性。为平衡这一权衡,本文提出了SafeHarbor框架,旨在为LLM智能体建立精确的决策边界。与静态准则不同,SafeHarbor通过增强对抗生成技术提取上下文感知的防御规则。该框架设计了局部层级记忆系统,实现动态规则注入,提供了一种无需训练、高效且即插即用的解决方案。此外,引入了基于信息熵的自演化机制,通过动态节点分裂与合并持续优化记忆结构。实验表明,SafeHarbor在模糊良性任务与显式恶意攻击中均达到SOTA水平,在GPT-4o上实现了63.6%的良性任务实用性,同时保持了超过93%的有害请求拒绝率。
🔬 方法详解
问题定义:论文旨在解决LLM智能体在工具调用场景下的安全防御难题。现有防御方法通常采用静态规则或硬性过滤,导致模型在面对复杂或模糊的良性请求时产生“过度拒绝”现象,严重损害了智能体的可用性。
核心思路:SafeHarbor的核心思想是将安全防御从静态准则转变为动态的上下文感知决策。通过构建分层记忆系统,将防御规则与具体上下文解耦,实现对不同请求的精细化控制,从而在保障安全的前提下最大化模型效用。
技术框架:框架主要包含三个模块:一是基于增强对抗生成的规则提取器,用于生成高质量的防御样本;二是局部层级记忆系统,负责存储并动态注入防御规则;三是基于信息熵的自演化机制,通过对记忆节点的动态分裂与合并,实现防御策略的持续优化。
关键创新:最重要的创新在于引入了“训练即插即用”的层级记忆结构,避免了对基础模型进行昂贵的微调。同时,利用信息熵驱动的自演化机制,使系统能够根据交互反馈自动调整决策边界,显著提升了防御的灵活性与鲁棒性。
关键设计:系统采用树状分层结构存储防御规则,利用信息熵评估节点的区分度。当节点不确定性超过阈值时,触发分裂操作以细化规则;反之则进行合并以压缩冗余,确保记忆库在保持高效检索的同时,能够精准覆盖复杂的对抗攻击空间。
🖼️ 关键图片
📊 实验亮点
SafeHarbor在GPT-4o模型上表现卓越,在处理模糊良性任务时,良性实用性指标达到63.6%,显著优于传统防御方法。同时,在面对显式恶意攻击时,该框架保持了超过93%的拒绝率,成功在安全防御与任务效用之间取得了最优的帕累托平衡,确立了该领域的新基准。
🎯 应用场景
该研究适用于需要高安全性与高可用性的LLM智能体部署场景,如企业级自动化办公助手、金融数据分析工具及医疗咨询系统。其即插即用的特性使其能够轻松集成到现有的Agent架构中,有效降低恶意攻击风险,同时提升用户在复杂任务处理中的交互体验,具有广泛的工业应用前景。
📄 摘要(原文)
With the rapid evolution of foundation models, Large Language Model (LLM) agents have demonstrated increasingly powerful tool-use capabilities. However, this proficiency introduces significant security risks, as malicious actors can manipulate agents into executing tools to generate harmful content. While existing defensive mechanisms are effective, they frequently suffer from the over-refusal problem, where increased safety strictness compromises the agent's utility on benign tasks. To mitigate this trade-off, we propose \textsc{SafeHarbor}, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, \textsc{SafeHarbor} extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that \textsc{SafeHarbor} achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.