AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

作者: Yixiang Zhang, Xinhao Deng, Jiaqing Wu, Yue Xiao, Ke Xu, Qi Li

分类: cs.CR, cs.AI

发布日期: 2026-04-27

备注: 7 pages, 1 figure;

🔗 代码/项目: GITHUB

💡 一句话要点

AgentWard：面向自主AI代理的全生命周期安全架构

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主AI代理 安全架构 生命周期安全 深度防御 威胁传播

📋 核心要点

自主AI代理面临安全挑战，现有方法难以应对初始化、输入处理、决策等阶段的威胁传播。
AgentWard采用生命周期视角，构建深度防御体系，在代理的各个阶段集成异构安全控制并进行跨层协调。
通过在OpenClaw上实现插件原生原型，验证了AgentWard架构的实际可行性，为自主AI代理的运行时安全提供了蓝图。

📝 摘要（中文）

自主AI代理将大型语言模型扩展为完整的运行时系统，这些系统加载技能、摄取外部内容、维护记忆、规划多步骤行动并调用特权工具。在这种系统中，安全故障很少局限于单个接口；相反，它们可以在初始化、输入处理、记忆、决策和执行等阶段传播，并且通常只有当有害影响在环境中显现时才变得明显。本文提出了AgentWard，一种面向生命周期、深度防御的架构，系统地组织了跨越这五个阶段的保护。AgentWard集成了特定阶段的异构控制与跨层协调，使威胁能够在传播路径上被拦截，同时保护关键资产。我们详细介绍了五个协调保护层的设计原理和架构，并在OpenClaw上实现了一个插件原生原型，以证明实际可行性。这种视角为构建运行时安全控制、管理信任传播以及在自主AI代理中强制执行执行隔离提供了一个具体的蓝图。我们的代码可在https://github.com/FIND-Lab/AgentWard 获取。

🔬 方法详解

问题定义：自主AI代理的安全问题日益突出，现有的安全机制往往是孤立的，无法有效应对威胁在代理生命周期各个阶段的传播。例如，恶意输入可能污染代理的记忆，进而影响其决策和执行，最终导致有害行为。现有方法缺乏对整个生命周期的系统性安全考虑，容易被攻击者利用。

核心思路：AgentWard的核心思路是构建一个面向生命周期的、深度防御的安全架构，将安全控制嵌入到自主AI代理的各个阶段（初始化、输入处理、记忆、决策、执行）。通过分层防御和跨层协调，实现对威胁的早期检测和拦截，从而降低安全风险。

技术框架：AgentWard的整体架构包含五个协调的保护层，分别对应代理的五个关键阶段： 1. 初始化保护：确保代理以安全的方式启动，防止恶意代码注入。 2. 输入处理保护：对外部输入进行严格的验证和过滤，防止恶意数据污染代理的记忆。 3. 记忆保护：保护代理的记忆免受篡改和泄露，确保决策的可靠性。 4. 决策保护：监控代理的决策过程，防止其做出有害的行动计划。 5. 执行保护：限制代理的执行权限，防止其对环境造成损害。这些保护层之间通过跨层协调机制进行信息共享和协同工作，形成一个完整的安全体系。

关键创新：AgentWard的关键创新在于其生命周期视角的安全设计，以及异构安全控制的集成和跨层协调。与传统的孤立安全措施相比，AgentWard能够更全面地覆盖代理的各个阶段，并有效地应对威胁的传播。

关键设计：AgentWard的具体实现细节包括： * 使用沙箱技术隔离代理的执行环境。 * 采用基于规则的引擎进行输入验证和过滤。 * 利用加密技术保护代理的记忆。 * 设计行为监控模块检测异常决策。 * 实施最小权限原则限制代理的执行权限。

🖼️ 关键图片

📊 实验亮点

论文在OpenClaw平台上实现了一个插件原生原型，验证了AgentWard架构的实际可行性。实验结果表明，AgentWard能够有效地检测和拦截各种类型的攻击，例如代码注入、数据污染和权限提升。具体性能数据未知，但原型验证表明AgentWard在实际应用中具有潜力。

🎯 应用场景

AgentWard架构可广泛应用于各种自主AI代理系统，例如智能助手、自动化运维工具、机器人等。通过提供全生命周期的安全保护，AgentWard能够有效降低这些系统面临的安全风险，提高其可靠性和安全性，从而促进自主AI代理技术的更广泛应用。未来，该架构可以进一步扩展到更复杂的AI系统中，例如联邦学习和多智能体系统。

📄 摘要（原文）

Autonomous AI agents extend large language models into full runtime systems that load skills, ingest external content, maintain memory, plan multi-step actions, and invoke privileged tools. In such systems, security failures rarely remain confined to a single interface; instead, they can propagate across initialization, input processing, memory, decision-making, and execution, often becoming apparent only when harmful effects materialize in the environment. This paper presents AgentWard, a lifecycle-oriented, defense-in-depth architecture that systematically organizes protection across these five stages. AgentWard integrates stage-specific, heterogeneous controls with cross-layer coordination, enabling threats to be intercepted along their propagation paths while safeguarding critical assets. We detail the design rationale and architecture of five coordinated protection layers, and implement a plugin-native prototype on OpenClaw to demonstrate practical feasibility. This perspective provides a concrete blueprint for structuring runtime security controls, managing trust propagation, and enforcing execution containment in autonomous AI agents. Our code is available at https://github.com/FIND-Lab/AgentWard .

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理