SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents
作者: Mengyao Du, Han Fang, Haokai Ma, Jiahao Chen, Kai Xu, Quanjun Yin, Ee-Chien Chang
分类: cs.CR, cs.AI
发布日期: 2026-04-28
备注: 10 pages, 7 figures
💡 一句话要点
SnapGuard:针对截图Web代理的轻量级Prompt注入检测方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Prompt注入检测 Web代理 截图分析 视觉稳定性 文本信号
📋 核心要点
- 现有基于截图的Web代理易受Prompt注入攻击,而传统文本防御方法失效,多模态检测方法计算开销大。
- SnapGuard通过分析网页截图的多模态表示来检测Prompt注入,利用视觉稳定性和面向动作的文本信号。
- 实验表明,SnapGuard在F1分数上优于GPT-4o-prompt,且速度提升8倍,无额外内存开销,实现了轻量级检测。
📝 摘要(中文)
Web代理已成为自动化与复杂Web环境交互的有效范例,但仍然容易受到prompt注入攻击,攻击者将恶意指令嵌入到网页内容中以诱导非预期行为。对于基于截图的Web代理,这种威胁进一步加剧,因为它们在渲染的可视化网页上操作,而不是在结构化的文本表示上操作,这使得以文本为中心的防御方法失效。尽管已经探索了多模态检测方法,但它们通常依赖于大型视觉-语言模型(VLMs),导致显著的计算开销。瓶颈在于现代网页的复杂性:VLM必须理解整个页面的全局语义,从而导致大量的推理时间和GPU内存使用。本文提出SnapGuard,一种轻量级但准确的方法,将prompt注入检测重新定义为网页截图上的多模态表示分析。SnapGuard利用两种互补信号:识别由恶意内容引起的异常平滑梯度分布的视觉稳定性指标,以及通过对比极性反转恢复的面向动作的文本信号。在八种攻击和两种良性设置下的广泛评估表明,SnapGuard实现了0.75的F1分数,优于GPT-4o-prompt,同时速度快8倍(1.81秒 vs. 14.50秒),并且没有引入额外的内存开销。
🔬 方法详解
问题定义:论文旨在解决基于截图的Web代理中,prompt注入攻击难以检测的问题。现有方法,特别是依赖大型视觉语言模型(VLMs)的多模态检测方法,计算开销过大,推理速度慢,且需要大量GPU内存。这些方法需要理解整个网页的全局语义,导致效率低下。
核心思路:论文的核心思路是,被注入恶意prompt的网页在视觉和文本上会呈现出与正常网页不同的特征。通过分析这些特征,可以轻量级地检测prompt注入攻击,而无需依赖复杂的全局语义理解。具体来说,利用视觉稳定性指标和面向动作的文本信号作为检测依据。
技术框架:SnapGuard的技术框架主要包含两个模块:视觉稳定性分析模块和面向动作的文本信号提取模块。视觉稳定性分析模块通过计算网页截图的梯度分布,识别由恶意内容引起的异常平滑区域。面向动作的文本信号提取模块则通过对比极性反转等技术,从OCR识别的文本中提取与用户动作相关的关键信息。最后,将两个模块的输出进行融合,用于判断是否存在prompt注入攻击。
关键创新:SnapGuard的关键创新在于其轻量级的设计和对局部特征的关注。与需要理解全局语义的VLM不同,SnapGuard仅分析网页截图的局部视觉稳定性和面向动作的文本信号,从而显著降低了计算复杂度。此外,利用对比极性反转提取文本信号也是一个创新点,能够更有效地识别恶意prompt。
关键设计:在视觉稳定性分析模块中,使用了梯度分布的统计特征作为视觉稳定性的度量。具体来说,计算梯度幅度的均值和方差,并将其作为输入特征。在面向动作的文本信号提取模块中,使用了对比极性反转技术,通过比较原始文本和极性反转后的文本,提取与用户动作相关的关键词。此外,还使用了简单的线性分类器对融合后的特征进行分类。
🖼️ 关键图片
📊 实验亮点
SnapGuard在八种攻击和两种良性设置下进行了广泛评估,实验结果表明,SnapGuard的F1分数为0.75,优于GPT-4o-prompt。同时,SnapGuard的推理速度比GPT-4o-prompt快8倍(1.81秒 vs. 14.50秒),并且没有引入额外的内存开销。这些结果证明了SnapGuard在prompt注入检测方面的有效性和高效性。
🎯 应用场景
SnapGuard可应用于各种基于截图的Web代理系统,例如自动化测试工具、网页内容审核系统和RPA(机器人流程自动化)平台。通过轻量级地检测prompt注入攻击,可以提高这些系统的安全性和可靠性,防止恶意用户利用prompt注入来控制Web代理执行非预期操作。该研究成果有助于构建更安全的Web自动化生态系统。
📄 摘要(原文)
Web agents have emerged as an effective paradigm for automating interactions with complex web environments, yet remain vulnerable to prompt injection attacks that embed malicious instructions into webpage content to induce unintended actions. This threat is further amplified for screenshot-based web agents, which operate on rendered visual webpages rather than structured textual representations, making predominant text-centric defenses ineffective. Although multimodal detection methods have been explored, they often rely on large vision-language models (VLMs), incurring significant computational overhead. The bottleneck lies in the complexity of modern webpages: VLMs must comprehend the global semantics of an entire page, resulting in substantial inference time and GPU memory usage. This raises a critical question: can we detect prompt injection attacks from screenshots in a lightweight manner? In this paper, we observe that injected webpages exhibit distinct characteristics compared to benign ones from both visual and textual perspectives. Building on this insight, we propose SnapGuard, a lightweight yet accurate method that reformulates prompt injection detection as multimodal representation analysis over webpage screenshots. SnapGuard leverages two complementary signals: a visual stability indicator that identifies abnormally smooth gradient distributions induced by malicious content, and action-oriented textual signals recovered via contrast-polarity reversal. Extensive evaluations across eight attacks and two benign settings demonstrate that SnapGuard achieves an F1 score of 0.75, outperforming GPT-4o-prompt while being 8x faster (1.81s vs. 14.50s) and introducing no additional memory overhead.