Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace
作者: Qianlong Lan, Anuj Kaul, Shaun Jones, Stephanie Westrum
分类: cs.CR, cs.AI
发布日期: 2026-02-28
💡 一句话要点
提出Silent Egress攻击,揭示LLM Agent中隐式Prompt注入导致敏感信息泄露的风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent Prompt注入 信息泄露 安全风险 隐式攻击
📋 核心要点
- 现有Agentic LLM系统依赖URL检索和外部工具调用,易受恶意URL预览中的隐式Prompt注入攻击。
- 提出Silent Egress攻击,利用恶意网页诱导Agent发出出站请求,在用户无感知情况下泄露敏感信息。
- 实验表明该攻击成功率高,且难以被输出安全检查发现,网络层防御比Prompt层防御更有效。
📝 摘要(中文)
本文揭示了一种针对Agentic大型语言模型系统的新型安全风险:Silent Egress。该风险源于隐式prompt注入,即恶意指令嵌入在自动生成的URL预览(包括标题、元数据和片段)中,导致系统在用户无感知的情况下泄露敏感的运行时上下文。研究人员构建了一个完全本地且可复现的测试平台,证明恶意网页可以诱导Agent发出出站请求,从而泄露敏感信息,即使最终呈现给用户的响应看起来无害。在基于qwen2.5:7b的Agent的480次实验中,攻击成功率高达89%,且95%的成功攻击未被基于输出的安全检查检测到。此外,研究还提出了分片泄露策略,将敏感信息分散到多个请求中以规避检测,该策略将单请求泄露指标降低了73%。消融实验表明,在prompt层面的防御效果有限,而系统和网络层面的控制(如域名白名单和重定向链分析)更为有效。研究强调,网络出口应被视为Agentic LLM系统中的首要安全问题,并提出了包括溯源跟踪和能力隔离在内的架构方向,以超越prompt层面的强化。
🔬 方法详解
问题定义:论文旨在解决Agentic LLM系统中由于隐式Prompt注入导致的敏感信息泄露问题。现有方法主要关注Prompt层面的安全防御,但忽略了URL预览等自动生成内容中嵌入的恶意指令可能造成的系统级风险。这种风险使得攻击者可以在用户无感知的情况下,通过Agent泄露敏感的运行时上下文,绕过传统的安全检查机制。
核心思路:论文的核心思路是利用Agent自动检索URL并生成预览的特性,将恶意指令嵌入到URL的标题、元数据或片段中。当Agent处理这些恶意URL时,嵌入的指令会被注入到Agent的上下文中,从而诱导Agent执行恶意操作,例如发送包含敏感信息的出站请求。这种攻击方式隐蔽性强,难以被传统的基于输出的安全检查发现。
技术框架:论文构建了一个完全本地且可复现的测试平台,用于评估Silent Egress攻击的有效性。该平台包括一个基于qwen2.5:7b的Agent,以及一个模拟恶意网站的服务器。攻击流程如下:1) Agent接收包含恶意URL的任务;2) Agent访问恶意URL,获取包含恶意指令的URL预览;3) 恶意指令被注入到Agent的上下文中;4) Agent执行恶意指令,例如发送包含敏感信息的出站请求。研究人员通过监控Agent的出站请求,评估攻击的成功率和泄露的信息量。
关键创新:论文最重要的技术创新点在于揭示了隐式Prompt注入在Agentic LLM系统中的安全风险。与传统的Prompt注入攻击不同,隐式Prompt注入不需要直接操纵用户的输入,而是利用Agent自动生成的内容作为攻击媒介。此外,论文还提出了分片泄露策略,将敏感信息分散到多个请求中,以规避基于单请求的检测机制。
关键设计:论文的关键设计包括:1) 恶意URL预览的内容,需要精心设计以诱导Agent执行特定的恶意操作;2) 分片泄露策略,需要将敏感信息分割成多个片段,并分别嵌入到不同的出站请求中;3) 实验评估指标,包括攻击成功率、泄露的信息量以及防御机制的有效性。
📊 实验亮点
实验结果表明,Silent Egress攻击对基于qwen2.5:7b的Agent具有很高的成功率(89%),且95%的成功攻击未被基于输出的安全检查检测到。分片泄露策略能够有效降低单请求泄露指标(降低73%),并绕过简单的数据丢失防护机制。消融实验表明,网络层面的防御(如域名白名单和重定向链分析)比Prompt层面的防御更为有效。
🎯 应用场景
该研究成果对Agentic LLM系统的安全设计具有重要指导意义。可应用于金融、医疗、法律等对数据安全要求极高的领域,帮助开发者构建更安全的Agent,防止敏感信息泄露。未来的研究可以探索更高级的防御机制,例如基于溯源跟踪和能力隔离的架构,以进一步提升Agent的安全性。
📄 摘要(原文)
Agentic large language model systems increasingly automate tasks by retrieving URLs and calling external tools. We show that this workflow gives rise to implicit prompt injection: adversarial instructions embedded in automatically generated URL previews, including titles, metadata, and snippets, can introduce a system-level risk that we refer to as silent egress. Using a fully local and reproducible testbed, we demonstrate that a malicious web page can induce an agent to issue outbound requests that exfiltrate sensitive runtime context, even when the final response shown to the user appears harmless. In 480 experimental runs with a qwen2.5:7b-based agent, the attack succeeds with high probability (P (egress) =0.89), and 95% of successful attacks are not detected by output-based safety checks. We also introduce sharded exfiltration, where sensitive information is split across multiple requests to avoid detection. This strategy reduces single-request leakage metrics by 73% (Leak@1) and bypasses simple data loss prevention mechanisms. Our ablation results indicate that defenses applied at the prompt layer offer limited protection, while controls at the system and network layers, such as domain allowlisting and redirect-chain analysis, are considerably more effective. These findings suggest that network egress should be treated as a first-class security outcome in agentic LLM systems. We outline architectural directions, including provenance tracking and capability isolation, that go beyond prompt-level hardening.