A Systematic Security Evaluation of OpenClaw and Its Variants

📄 arXiv: 2604.03131 📥 PDF

作者: Yuhang Wang, Haichang Gao, Zhenxing Niu, Zhaoxiang Liu, Wenjing Zhang, Xiang Wang, Shiguo Lian

分类: cs.CR, cs.AI

发布日期: 2026-04-06


💡 一句话要点

系统性评估OpenClaw及其变体的安全漏洞,揭示工具增强型AI Agent的潜在风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI Agent安全 OpenClaw 安全评估 漏洞挖掘 工具增强型AI 运行时安全 生命周期安全

📋 核心要点

  1. 现有方法难以识别工具增强型AI Agent引入的安全风险,仅依赖模型评估是不够的。
  2. 构建包含205个测试用例的基准,覆盖Agent执行全生命周期的攻击行为,统一评估框架和模型层面的风险。
  3. 实验结果表明,所有评估的Agent都存在安全漏洞,Agent化系统比单独使用的模型风险更高。

📝 摘要(中文)

本文针对六种代表性的OpenClaw系列Agent框架(OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw和ArkClaw)进行了系统性的安全评估,并使用了多种backbone模型。为此,我们构建了一个包含205个测试用例的基准,涵盖了Agent执行生命周期中的代表性攻击行为,从而能够统一评估框架和模型层面的风险暴露。结果表明,所有被评估的Agent都存在严重的安全漏洞,并且Agent化系统比单独使用的底层模型风险更高。侦察和发现行为是最常见的弱点,不同的框架暴露了不同的高风险特征,包括凭据泄露、横向移动、权限提升和资源开发。研究表明,现代Agent系统的安全性不仅取决于backbone模型的安全属性,还取决于模型能力、工具使用、多步骤规划和运行时编排之间的耦合。一旦Agent被授予执行能力和持久的运行时上下文,早期阶段出现的弱点可能会被放大为具体的系统级故障。总而言之,我们的研究强调需要超越prompt级别的安全措施,转向智能Agent框架的生命周期安全治理。

🔬 方法详解

问题定义:论文旨在解决工具增强型AI Agent框架的安全评估问题。现有方法主要关注模型本身的安全性,忽略了工具使用、多步骤规划和运行时编排带来的安全风险。这些Agent框架在实际应用中可能被恶意利用,造成凭据泄露、横向移动、权限提升等安全问题。

核心思路:论文的核心思路是通过构建一个全面的安全评估基准,系统性地测试OpenClaw及其变体在不同攻击场景下的表现,从而揭示Agent框架的安全漏洞。该方法强调Agent执行生命周期的全流程评估,关注模型能力、工具使用和运行时环境的交互作用。

技术框架:该研究的技术框架主要包括以下几个部分:1) 选择六种代表性的OpenClaw系列Agent框架;2) 构建包含205个测试用例的安全评估基准,覆盖侦察、发现、凭据泄露、横向移动、权限提升和资源开发等攻击行为;3) 使用多种backbone模型(具体模型未知)对Agent框架进行测试;4) 分析测试结果,识别Agent框架的安全漏洞和风险。

关键创新:该研究的关键创新在于构建了一个针对工具增强型AI Agent框架的系统性安全评估基准。该基准不仅考虑了模型本身的安全性,还关注了工具使用、多步骤规划和运行时编排带来的安全风险,能够更全面地评估Agent框架的安全性。

关键设计:测试用例的设计是关键。每个测试用例都模拟了一种特定的攻击场景,旨在触发Agent框架的潜在安全漏洞。测试用例涵盖了Agent执行生命周期的不同阶段,包括初始化、规划、执行和清理。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于Agent框架本身的实现细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有评估的OpenClaw系列Agent框架都存在严重的安全漏洞。侦察和发现行为是最常见的弱点,不同的框架暴露了不同的高风险特征,包括凭据泄露、横向移动、权限提升和资源开发。Agent化系统比单独使用的底层模型风险更高,表明工具使用和运行时编排会放大模型自身的安全风险。

🎯 应用场景

该研究成果可应用于AI Agent安全评估、安全漏洞挖掘和安全防御体系构建。有助于开发者在设计和部署Agent系统时充分考虑安全风险,并采取相应的安全措施,降低Agent系统被恶意利用的风险。该研究对提升AI Agent的整体安全性具有重要意义。

📄 摘要(原文)

Tool-augmented AI agents substantially extend the practical capabilities of large language models, but they also introduce security risks that cannot be identified through model-only evaluation. In this paper, we present a systematic security assessment of six representative OpenClaw-series agent frameworks, namely OpenClaw, AutoClaw, QClaw, KimiClaw, MaxClaw, and ArkClaw, under multiple backbone models. To support this study, we construct a benchmark of 205 test cases covering representative attack behaviors across the full agent execution lifecycle, enabling unified evaluation of risk exposure at both the framework and model levels. Our results show that all evaluated agents exhibit substantial security vulnerabilities, and that agentized systems are significantly riskier than their underlying models used in isolation. In particular, reconnaissance and discovery behaviors emerge as the most common weaknesses, while different frameworks expose distinct high-risk profiles, including credential leakage, lateral movement, privilege escalation, and resource development. These findings indicate that the security of modern agent systems is shaped not only by the safety properties of the backbone model, but also by the coupling among model capability, tool use, multi-step planning, and runtime orchestration. We further show that once an agent is granted execution capability and persistent runtime context, weaknesses arising in early stages can be amplified into concrete system-level failures. Overall, our study highlights the need to move beyond prompt-level safeguards toward lifecycle-wide security governance for intelligent agent frameworks.