BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents

📄 arXiv: 2601.04566v1 📥 PDF

作者: Yunhao Feng, Yige Li, Yutao Wu, Yingshui Tan, Yanming Guo, Yifan Ding, Kun Zhai, Xingjun Ma, Yugang Jiang

分类: cs.AI, cs.CL

发布日期: 2026-01-08


💡 一句话要点

BackdoorAgent:针对LLM Agent的统一后门攻击框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 后门攻击 安全风险 攻击框架 触发器传播

📋 核心要点

  1. 现有研究对LLM Agent的后门攻击分析分散,缺乏对跨阶段触发器交互和传播的系统性理解。
  2. BackdoorAgent框架将Agent工作流程分解为规划、记忆和工具使用三个阶段,实现对后门攻击的统一建模和分析。
  3. 实验表明,在单个阶段植入的触发器可以在Agent工作流程中持续存在并传播,揭示了Agent对后门攻击的脆弱性。

📝 摘要(中文)

大型语言模型(LLM)Agent通过结合规划、记忆和工具使用等多步骤工作流程来执行任务。这种设计在实现自主性的同时也扩大了后门威胁的攻击面。注入到Agent工作流程特定阶段的后门触发器可以持续存在于多个中间状态,并对下游输出产生不利影响。然而,现有的研究仍然是分散的,通常孤立地分析单个攻击向量,使得从Agent中心视角对后门触发器的跨阶段交互和传播的理解不足。为了填补这一空白,我们提出了BackdoorAgent,这是一个模块化和阶段感知的框架,它提供了LLM Agent中后门威胁的统一的、以Agent为中心的视角。BackdoorAgent将攻击面构建为Agent工作流程的三个功能阶段,包括规划攻击、记忆攻击和工具使用攻击,并对Agent执行进行检测,以实现对不同阶段触发器激活和传播的系统分析。在此框架的基础上,我们构建了一个标准化基准,涵盖四个代表性的Agent应用:Agent QA、Agent Code、Agent Web和Agent Drive,覆盖了仅语言和多模态设置。我们的实证分析表明,在单个阶段植入的触发器可以跨多个步骤持续存在,并通过中间状态传播。例如,当使用基于GPT的骨干网络时,我们观察到43.58%的规划攻击、77.97%的记忆攻击和60.28%的工具阶段攻击中存在触发器持久性,突出了Agent工作流程本身对后门威胁的脆弱性。为了方便重现和未来的研究,我们的代码和基准已在GitHub上公开。

🔬 方法详解

问题定义:现有研究缺乏对LLM Agent后门攻击的系统性分析,特别是忽略了攻击触发器在Agent工作流程不同阶段之间的传播和交互。现有的攻击方法通常针对单个攻击向量进行孤立分析,无法全面评估Agent的整体安全风险。

核心思路:BackdoorAgent的核心思路是将Agent的工作流程分解为多个功能阶段,包括规划、记忆和工具使用,并将后门攻击建模为在这些阶段中发生的事件。通过这种分解,可以更清晰地理解触发器如何在不同阶段之间传播,以及如何影响最终的Agent行为。

技术框架:BackdoorAgent框架包含三个主要模块,分别对应Agent工作流程的三个阶段:规划攻击模块、记忆攻击模块和工具使用攻击模块。每个模块负责在相应的阶段注入后门触发器,并监控触发器的激活和传播。该框架还包括一个标准化基准,用于评估不同攻击策略的效果。

关键创新:BackdoorAgent的关键创新在于其以Agent为中心的视角,将后门攻击视为一个跨阶段的动态过程。与以往孤立地分析单个攻击向量的方法不同,BackdoorAgent能够捕捉触发器在Agent工作流程中的传播和交互,从而更全面地评估Agent的安全风险。

关键设计:BackdoorAgent的关键设计包括:1) 模块化的攻击框架,允许灵活地组合不同阶段的攻击策略;2) 阶段感知的触发器注入机制,能够针对不同阶段的特点设计有效的触发器;3) 标准化的基准,提供了一致的评估环境,方便比较不同攻击方法的效果。

📊 实验亮点

实验结果表明,BackdoorAgent框架能够有效地评估LLM Agent的后门风险。具体而言,在基于GPT的Agent中,规划攻击的触发器持久性为43.58%,记忆攻击为77.97%,工具使用攻击为60.28%。这些数据表明,Agent工作流程本身对后门威胁非常脆弱,需要采取有效的防御措施。

🎯 应用场景

该研究成果可应用于提升LLM Agent的安全性,例如开发更有效的后门检测和防御机制。此外,BackdoorAgent框架可以作为评估Agent安全性的工具,帮助开发者识别潜在的漏洞并采取相应的安全措施。该研究对于构建安全可靠的AI Agent具有重要意义。

📄 摘要(原文)

Large language model (LLM) agents execute tasks through multi-step workflows that combine planning, memory, and tool use. While this design enables autonomy, it also expands the attack surface for backdoor threats. Backdoor triggers injected into specific stages of an agent workflow can persist through multiple intermediate states and adversely influence downstream outputs. However, existing studies remain fragmented and typically analyze individual attack vectors in isolation, leaving the cross-stage interaction and propagation of backdoor triggers poorly understood from an agent-centric perspective. To fill this gap, we propose \textbf{BackdoorAgent}, a modular and stage-aware framework that provides a unified, agent-centric view of backdoor threats in LLM agents. BackdoorAgent structures the attack surface into three functional stages of agentic workflows, including \textbf{planning attacks}, \textbf{memory attacks}, and \textbf{tool-use attacks}, and instruments agent execution to enable systematic analysis of trigger activation and propagation across different stages. Building on this framework, we construct a standardized benchmark spanning four representative agent applications: \textbf{Agent QA}, \textbf{Agent Code}, \textbf{Agent Web}, and \textbf{Agent Drive}, covering both language-only and multimodal settings. Our empirical analysis shows that \textit{triggers implanted at a single stage can persist across multiple steps and propagate through intermediate states.} For instance, when using a GPT-based backbone, we observe trigger persistence in 43.58\% of planning attacks, 77.97\% of memory attacks, and 60.28\% of tool-stage attacks, highlighting the vulnerabilities of the agentic workflow itself to backdoor threats. To facilitate reproducibility and future research, our code and benchmark are publicly available at GitHub.