Decoding Latent Attack Surfaces in LLMs: Prompt Injection via HTML in Web Summarization
作者: Ishaan Verma, Arsheya Yadav
分类: cs.CR, cs.AI
发布日期: 2025-09-06 (更新: 2025-11-11)
💡 一句话要点
通过HTML隐蔽注入攻击揭示LLM的脆弱性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示注入 HTML攻击 内容摘要 对抗性学习
📋 核心要点
- 现有的LLM在处理网络内容时,容易受到提示注入攻击,尤其是通过隐蔽的HTML元素进行的攻击。
- 本研究提出了一种利用非可见HTML元素进行对抗性指令注入的方法,构建了包含干净和对抗性版本的网页数据集。
- 实验结果表明,Llama 4 Scout模型在29%的注入样本中表现出明显的摘要变化,Gemma 9B IT的成功率为15%。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于基于网络的内容摘要,但其对提示注入攻击的脆弱性仍然是一个紧迫的问题。本研究探讨了如何利用非可见的HTML元素(如、aria-label和alt属性)嵌入对抗性指令,而不改变网页的可见内容。我们引入了一个包含280个静态网页的新数据集,均分为干净和对抗性注入版本,采用多种基于HTML的策略构建。这些网页通过浏览器自动化管道处理,以提取原始HTML和渲染文本,模拟真实世界的LLM部署场景。我们评估了两种最先进的开源模型,Llama 4 Scout(Meta)和Gemma 9B IT(Google),并使用词汇(ROUGE-L)和语义(SBERT余弦相似度)指标以及人工注释来评估这些隐蔽注入的影响。结果显示,超过29%的注入样本导致Llama 4 Scout摘要出现明显变化,而Gemma 9B IT的成功率为15%。这些结果突显了LLM驱动的网络管道中一个关键且被忽视的脆弱性,隐藏的对抗性内容可以微妙地操控模型输出。我们的工作提供了一个可重复的框架和基准,用于评估基于HTML的提示注入,并强调了在涉及网络内容的LLM应用中迫切需要强有力的缓解策略。
🔬 方法详解
问题定义:本研究旨在解决大型语言模型在网络内容摘要中对提示注入攻击的脆弱性,现有方法未能有效识别和防范这种隐蔽攻击。
核心思路:通过利用非可见的HTML元素(如、aria-label和alt属性),嵌入对抗性指令,而不改变网页的可见内容,从而实现对模型输出的操控。
技术框架:研究构建了一个包含280个静态网页的数据集,分为干净和对抗性版本,采用浏览器自动化管道提取原始HTML和渲染文本。评估使用了两种开源模型,并结合词汇和语义指标进行分析。
关键创新:引入了基于HTML的提示注入方法,揭示了LLM在处理隐藏内容时的脆弱性,提供了新的评估框架和基准。
关键设计:数据集的构建采用多种HTML策略,实验中使用了ROUGE-L和SBERT余弦相似度等指标,确保评估的全面性和准确性。实验结果通过人工注释进行验证,增强了研究的可信度。
📊 实验亮点
实验结果显示,Llama 4 Scout模型在29%的对抗性注入样本中出现明显的摘要变化,而Gemma 9B IT的成功率为15%。这些数据表明,隐蔽的HTML注入攻击对LLM的输出有显著影响,强调了该领域的安全隐患。
🎯 应用场景
该研究的潜在应用领域包括网络内容生成、信息检索和自动摘要等。通过揭示LLM在处理隐蔽对抗性内容时的脆弱性,研究为开发更安全的LLM应用提供了重要依据,未来可推动相关防护技术的进步。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly integrated into web-based systems for content summarization, yet their susceptibility to prompt injection attacks remains a pressing concern. In this study, we explore how non-visible HTML elements such as , aria-label, and alt attributes can be exploited to embed adversarial instructions without altering the visible content of a webpage. We introduce a novel dataset comprising 280 static web pages, evenly divided between clean and adversarial injected versions, crafted using diverse HTML-based strategies. These pages are processed through a browser automation pipeline to extract both raw HTML and rendered text, closely mimicking real-world LLM deployment scenarios. We evaluate two state-of-the-art open-source models, Llama 4 Scout (Meta) and Gemma 9B IT (Google), on their ability to summarize this content. Using both lexical (ROUGE-L) and semantic (SBERT cosine similarity) metrics, along with manual annotations, we assess the impact of these covert injections. Our findings reveal that over 29% of injected samples led to noticeable changes in the Llama 4 Scout summaries, while Gemma 9B IT showed a lower, yet non-trivial, success rate of 15%. These results highlight a critical and largely overlooked vulnerability in LLM driven web pipelines, where hidden adversarial content can subtly manipulate model outputs. Our work offers a reproducible framework and benchmark for evaluating HTML-based prompt injection and underscores the urgent need for robust mitigation strategies in LLM applications involving web content.