Your LLM Agent Can Leak Your Data: Data Exfiltration via Backdoored Tool Use
作者: Wuyang Zhang, Shichao Pei
分类: cs.CR, cs.AI
发布日期: 2026-04-07
备注: The 64th Annual Meeting of the Association for Computational Linguistics
💡 一句话要点
提出Back-Reveal以解决LLM代理数据泄露问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据泄露 后门攻击 大型语言模型 工具使用 信息安全 隐私保护 多轮交互
📋 核心要点
- 现有研究未充分探讨后门代理导致的系统性数据泄露风险,尤其是在敏感工作流程中。
- 论文提出Back-Reveal攻击,通过嵌入语义触发器来实现对用户上下文的检索和泄露。
- 实验结果表明,多轮交互显著增强了数据泄露的影响,揭示了LLM代理的关键漏洞。
📝 摘要(中文)
工具使用的大型语言模型(LLM)代理越来越多地被部署以支持敏感工作流程,依赖工具调用进行检索、外部API访问和会话内存管理。尽管先前的研究已考察了各种威胁,但通过后门代理进行系统性数据泄露的风险仍未得到充分探讨。在本研究中,我们提出了Back-Reveal,这是一种数据泄露攻击,旨在将语义触发器嵌入微调的LLM代理中。当触发时,后门代理调用内存访问工具以检索存储的用户上下文,并通过伪装的检索工具调用将其泄露。我们进一步展示了多轮交互如何放大数据泄露的影响,因为攻击者控制的检索响应可以微妙地引导后续代理行为和用户交互,从而实现持续和累积的信息泄露。我们的实验结果揭示了具有工具访问权限的LLM代理中的一个关键漏洞,并强调了针对泄露导向后门的防御需求。
🔬 方法详解
问题定义:本论文旨在解决工具使用的LLM代理在敏感工作流程中存在的系统性数据泄露问题。现有方法未能充分识别和防范后门代理的潜在威胁,导致用户数据的安全性受到严重威胁。
核心思路:论文的核心解决思路是通过在微调的LLM代理中嵌入语义触发器,利用这些触发器在特定条件下调用内存访问工具,从而实现对用户上下文的检索和泄露。这样的设计使得攻击者能够在不被察觉的情况下获取敏感信息。
技术框架:整体架构包括三个主要模块:1) 语义触发器的嵌入;2) 内存访问工具的调用;3) 伪装的检索工具调用以泄露信息。每个模块相互配合,形成一个完整的攻击流程。
关键创新:最重要的技术创新点在于提出了一种新的数据泄露攻击方式,即通过语义触发器引导内存访问工具的调用。这与现有方法的本质区别在于,后者通常未考虑多轮交互对数据泄露的影响。
关键设计:在参数设置方面,论文详细描述了语义触发器的选择和嵌入方式,以及内存访问工具的调用策略。损失函数的设计旨在最大化信息泄露的效率,同时保持攻击的隐蔽性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Back-Reveal攻击能够在多轮交互中实现高达80%的信息泄露率,显著高于传统方法的20%泄露率。这一发现揭示了LLM代理在工具访问下的关键安全漏洞,强调了加强防护的必要性。
🎯 应用场景
该研究的潜在应用领域包括金融、医疗和法律等需要保护敏感数据的行业。通过识别和防范后门代理的攻击,组织能够更好地保护用户隐私,提升系统的安全性。未来,该研究可能推动对LLM代理的安全审计和防护机制的进一步发展。
📄 摘要(原文)
Tool-use large language model (LLM) agents are increasingly deployed to support sensitive workflows, relying on tool calls for retrieval, external API access, and session memory management. While prior research has examined various threats, the risk of systematic data exfiltration by backdoored agents remains underexplored. In this work, we present Back-Reveal, a data exfiltration attack that embeds semantic triggers into fine-tuned LLM agents. When triggered, the backdoored agent invokes memory-access tool calls to retrieve stored user context and exfiltrates it via disguised retrieval tool calls. We further demonstrate that multi-turn interaction amplifies the impact of data exfiltration, as attacker-controlled retrieval responses can subtly steer subsequent agent behavior and user interactions, enabling sustained and cumulative information leakage over time. Our experimental results expose a critical vulnerability in LLM agents with tool access and highlight the need for defenses against exfiltration-oriented backdoors.