Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance

📄 arXiv: 2603.19974v1 📥 PDF

作者: Fazhong Liu, Zhuoyan Chen, Tu Lan, Haozhen Tan, Zhenyu Xu, Xiang Li, Guoxing Chen, Yan Meng, Haojin Zhu

分类: cs.CR, cs.AI

发布日期: 2026-03-20


💡 一句话要点

通过注入引导指令隐蔽操纵OpenClaw:一种新型的自主编码代理攻击方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 自主编码代理 安全漏洞 指导注入 提示注入 恶意技能

📋 核心要点

  1. 自主编码代理的广泛应用带来了新的安全风险,特别是第三方技能注入可能被恶意利用。
  2. 论文提出一种名为“指导注入”的隐蔽攻击方法,通过伪装成最佳实践来操纵代理行为。
  3. 实验表明,该攻击方法在多种LLM后端上具有较高的成功率,并且难以被现有安全检测方法发现。

📝 摘要(中文)

自主编码代理越来越多地集成到软件开发工作流程中,它们提供的能力超越了代码建议,扩展到主动系统交互和环境管理。OpenClaw是这一新兴范例中的代表性平台,它引入了一个可扩展的技能生态系统,允许第三方开发者通过代理初始化期间的生命周期钩子注入行为指导。虽然这种设计增强了自动化和定制化,但也开启了一种新的、未被探索的攻击面。本文识别并系统地描述了指导注入,这是一种隐蔽的攻击向量,它将对抗性操作叙事嵌入到引导指导文件中。与依赖于显式恶意指令的传统提示注入不同,指导注入通过将有害行为定义为常规最佳实践来操纵代理的推理上下文。这些叙事会自动融入到代理的解释框架中,并在不引起怀疑的情况下影响未来的任务执行。我们构建了26个恶意技能,涵盖13个攻击类别,包括凭据泄露、工作区破坏、权限提升和持久性后门安装。我们使用我们开发的真实开发者工作区基准ORE-Bench对它们进行了评估。在52个自然用户提示和六个最先进的LLM后端上,我们的攻击成功率从16.0%到64.2%不等,大多数恶意行为在没有用户确认的情况下自主执行。此外,我们94%的恶意技能逃避了现有静态和基于LLM的扫描器的检测。我们的研究结果揭示了自主代理生态系统设计中的根本矛盾,并强调了迫切需要基于能力隔离、运行时策略执行和透明指导来源的防御。

🔬 方法详解

问题定义:论文旨在解决自主编码代理平台OpenClaw中存在的安全漏洞问题。OpenClaw允许第三方开发者通过注入引导文件来扩展代理的功能,但这种机制也为恶意攻击者提供了可乘之机。现有的安全防护方法,如静态代码分析和基于LLM的扫描器,难以检测到这种隐蔽的攻击方式。

核心思路:论文的核心思路是通过构造恶意的引导文件,将有害的操作叙事伪装成常规的最佳实践,从而操纵代理的推理上下文和行为。这种攻击方式不需要显式的恶意指令,而是通过潜移默化的方式影响代理的决策,使其在不知不觉中执行恶意操作。

技术框架:该研究主要包含以下几个阶段:1) 攻击场景设计:定义了13个攻击类别,包括凭据泄露、工作区破坏、权限提升和持久性后门安装等。2) 恶意技能构建:针对每个攻击类别,构建了相应的恶意技能,这些技能包含恶意的引导文件。3) 攻击效果评估:使用ORE-Bench基准测试评估恶意技能的攻击成功率,并测试现有安全检测方法的防御效果。

关键创新:论文的关键创新在于提出了“指导注入”这种新型的攻击方式。与传统的提示注入攻击不同,指导注入不需要显式的恶意指令,而是通过操纵代理的推理上下文来实现攻击目的。这种攻击方式更加隐蔽,难以被检测和防御。

关键设计:论文的关键设计包括:1) 恶意引导文件的构造:引导文件需要精心设计,使其看起来像是常规的最佳实践,从而避免引起用户的怀疑。2) ORE-Bench基准测试的开发:ORE-Bench提供了一个真实的开发者工作区环境,可以用于评估自主编码代理的安全性和可靠性。3) 攻击成功率的评估指标:论文定义了攻击成功率的评估指标,用于衡量恶意技能的攻击效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,指导注入攻击在六个最先进的LLM后端上均具有较高的成功率,从16.0%到64.2%不等。更重要的是,94%的恶意技能能够逃避现有静态和基于LLM的扫描器的检测,凸显了该攻击方式的隐蔽性和危害性。这些结果表明,现有的安全防护方法对于指导注入攻击的防御能力不足,需要开发新的防御机制。

🎯 应用场景

该研究成果可应用于提升自主编码代理平台的安全性,例如OpenClaw等。通过加强对第三方技能的审查和监控,可以有效防止指导注入攻击。此外,该研究也为开发更有效的安全检测方法提供了思路,例如基于运行时行为分析的检测方法。

📄 摘要(原文)

Autonomous coding agents are increasingly integrated into software development workflows, offering capabilities that extend beyond code suggestion to active system interaction and environment management. OpenClaw, a representative platform in this emerging paradigm, introduces an extensible skill ecosystem that allows third-party developers to inject behavioral guidance through lifecycle hooks during agent initialization. While this design enhances automation and customization, it also opens a novel and unexplored attack surface. In this paper, we identify and systematically characterize guidance injection, a stealthy attack vector that embeds adversarial operational narratives into bootstrap guidance files. Unlike traditional prompt injection, which relies on explicit malicious instructions, guidance injection manipulates the agent's reasoning context by framing harmful actions as routine best practices. These narratives are automatically incorporated into the agent's interpretive framework and influence future task execution without raising suspicion.We construct 26 malicious skills spanning 13 attack categories including credential exfiltration, workspace destruction, privilege escalation, and persistent backdoor installation. We evaluate them using ORE-Bench, a realistic developer workspace benchmark we developed. Across 52 natural user prompts and six state-of-the-art LLM backends, our attacks achieve success rates from 16.0% to 64.2%, with the majority of malicious actions executed autonomously without user confirmation. Furthermore, 94% of our malicious skills evade detection by existing static and LLM-based scanners. Our findings reveal fundamental tensions in the design of autonomous agent ecosystems and underscore the urgent need for defenses based on capability isolation, runtime policy enforcement, and transparent guidance provenance.