AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management
作者: Ruoyao Wen, Hao Li, Chaowei Xiao, Ning Zhang
分类: cs.CR, cs.AI
发布日期: 2026-02-07
备注: 21 pages, 4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
AgentSys:通过显式分层内存管理实现安全动态的LLM Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 提示注入攻击 内存管理 安全 分层架构 上下文隔离 模式验证
📋 核心要点
- 现有LLM Agent易受间接提示注入攻击,攻击者通过污染Agent的上下文记忆来控制其行为,传统Agent的记忆管理方式存在安全隐患。
- AgentSys借鉴操作系统内存隔离思想,提出一种分层Agent架构,主Agent与Worker Agent之间进行隔离,限制外部数据和子任务信息进入主Agent内存。
- 实验表明,AgentSys能有效防御间接提示注入攻击,在AgentDojo和ASB测试中,攻击成功率显著降低,同时保持或略微提升了Agent的正常功能。
📝 摘要(中文)
间接提示注入通过在外部内容中嵌入恶意指令来威胁LLM Agent,从而实现未经授权的操作和数据窃取。LLM Agent通过上下文窗口维护工作记忆,该窗口存储交互历史以供决策。传统的Agent不加区分地将所有工具输出和推理轨迹累积到此内存中,从而产生两个关键漏洞:(1)注入的指令在整个工作流程中持续存在,使攻击者有多次机会操纵行为,以及(2)冗长、非必要的内容会降低决策能力。现有的防御措施将臃肿的内存视为既定事实,并侧重于保持弹性,而不是减少不必要的累积以防止攻击。我们提出了AgentSys,一个通过显式内存管理来防御间接提示注入的框架。受操作系统中进程内存隔离的启发,AgentSys以分层方式组织Agent:主Agent生成用于工具调用的worker Agent,每个worker Agent在隔离的上下文中运行,并且能够生成用于子任务的嵌套worker Agent。外部数据和子任务跟踪永远不会进入主Agent的内存;只有经过模式验证的返回值才能通过确定性的JSON解析跨越边界。消融实验表明,仅隔离就将攻击成功率降低到2.19%,并且添加验证器/清理器通过事件触发的检查进一步提高了防御能力,其开销随操作而非上下文长度而扩展。在AgentDojo和ASB上,AgentSys实现了0.78%和4.25%的攻击成功率,同时略微提高了良性效用,优于未防御的基线。它对自适应攻击者和多个基础模型保持鲁棒性,表明显式内存管理能够实现安全、动态的LLM Agent架构。我们的代码可在https://github.com/ruoyaow/agentsys-memory上找到。
🔬 方法详解
问题定义:论文旨在解决LLM Agent中存在的间接提示注入攻击问题。现有Agent通常将所有工具输出和推理过程无差别地存储在上下文窗口中,导致恶意指令长期存在,并降低决策能力。现有的防御方法主要关注如何应对已经膨胀的记忆,而忽略了从源头上减少不必要的记忆累积。
核心思路:AgentSys的核心思路是借鉴操作系统中的进程内存隔离机制,将Agent组织成一个层次结构,主Agent负责总体决策,而Worker Agent负责执行具体的工具调用和子任务。通过隔离不同Agent的上下文,限制外部数据和子任务信息进入主Agent的记忆,从而防止恶意指令的传播。
技术框架:AgentSys的整体架构包括一个主Agent和多个Worker Agent。主Agent负责接收用户指令,并根据指令生成子任务。对于每个子任务,主Agent会创建一个Worker Agent,并在隔离的上下文中运行该Worker Agent。Worker Agent执行工具调用,并将结果返回给主Agent。主Agent只接收经过模式验证的返回值,并通过确定性的JSON解析来确保数据的安全性。这种分层结构可以递归嵌套,允许Worker Agent创建更多的子Worker Agent。
关键创新:AgentSys的关键创新在于引入了显式的分层内存管理机制,通过隔离不同Agent的上下文,有效地防止了间接提示注入攻击。与现有方法不同,AgentSys不是被动地应对膨胀的记忆,而是主动地限制记忆的累积,从源头上减少了攻击的可能性。此外,AgentSys还引入了模式验证和确定性JSON解析,进一步增强了数据的安全性。
关键设计:AgentSys的关键设计包括以下几个方面:1) Agent的分层结构,明确定义了主Agent和Worker Agent的职责和交互方式;2) 上下文隔离机制,确保不同Agent的记忆互不干扰;3) 模式验证和确定性JSON解析,用于验证Worker Agent返回数据的安全性;4) 事件触发的检查机制,用于在关键操作时进行安全检查,其开销与操作数量成正比,而非上下文长度。
🖼️ 关键图片
📊 实验亮点
AgentSys在AgentDojo和ASB基准测试中取得了显著的成果。在AgentDojo上,AgentSys的攻击成功率仅为0.78%,在ASB上为4.25%,远低于未防御的基线。更重要的是,AgentSys在防御攻击的同时,还略微提高了Agent的正常功能。实验还表明,AgentSys对自适应攻击者和不同的基础模型具有鲁棒性。
🎯 应用场景
AgentSys可应用于各种需要安全可靠的LLM Agent的场景,例如金融服务、医疗保健、法律咨询等。通过防止恶意指令的注入,AgentSys可以确保Agent的行为符合预期,保护用户的数据安全,并提高Agent的可靠性。该研究为构建更安全、更可信的LLM Agent系统奠定了基础。
📄 摘要(原文)
Indirect prompt injection threatens LLM agents by embedding malicious instructions in external content, enabling unauthorized actions and data theft. LLM agents maintain working memory through their context window, which stores interaction history for decision-making. Conventional agents indiscriminately accumulate all tool outputs and reasoning traces in this memory, creating two critical vulnerabilities: (1) injected instructions persist throughout the workflow, granting attackers multiple opportunities to manipulate behavior, and (2) verbose, non-essential content degrades decision-making capabilities. Existing defenses treat bloated memory as given and focus on remaining resilient, rather than reducing unnecessary accumulation to prevent the attack. We present AgentSys, a framework that defends against indirect prompt injection through explicit memory management. Inspired by process memory isolation in operating systems, AgentSys organizes agents hierarchically: a main agent spawns worker agents for tool calls, each running in an isolated context and able to spawn nested workers for subtasks. External data and subtask traces never enter the main agent's memory; only schema-validated return values can cross boundaries through deterministic JSON parsing. Ablations show isolation alone cuts attack success to 2.19%, and adding a validator/sanitizer further improves defense with event-triggered checks whose overhead scales with operations rather than context length. On AgentDojo and ASB, AgentSys achieves 0.78% and 4.25% attack success while slightly improving benign utility over undefended baselines. It remains robust to adaptive attackers and across multiple foundation models, showing that explicit memory management enables secure, dynamic LLM agent architectures. Our code is available at: https://github.com/ruoyaow/agentsys-memory.