PromptLocate: Localizing Prompt Injection Attacks
作者: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong
分类: cs.CR, cs.AI
发布日期: 2025-10-14 (更新: 2025-10-17)
备注: To appear in IEEE Symposium on Security and Privacy, 2026. For slides, see https://people.duke.edu/~zg70/code/PromptInjection.pdf
💡 一句话要点
PromptLocate:首个用于定位提示注入攻击的方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 提示注入攻击 攻击定位 大型语言模型 安全防护 数据恢复
📋 核心要点
- 现有方法缺乏有效定位提示注入攻击的能力,给事后分析和数据恢复带来挑战。
- PromptLocate通过语义分割、指令污染识别和数据污染定位三个步骤,实现对注入提示的精确定位。
- 实验证明,PromptLocate在多种攻击场景下均能准确地定位注入提示,展现了良好的性能。
📝 摘要(中文)
提示注入攻击通过在输入数据中注入恶意提示,诱使大型语言模型执行攻击者指定的任务,而非其预期任务。在受污染数据中定位注入的提示对于攻击后的取证分析和数据恢复至关重要。尽管其重要性日益增长,但提示注入定位在很大程度上仍未被探索。本文提出了PromptLocate,这是第一个用于定位注入提示的方法。PromptLocate包含三个步骤:(1)将受污染的数据分割成语义连贯的片段,(2)识别被注入指令污染的片段,以及(3)精确定位被注入数据污染的片段。实验表明,PromptLocate能够准确地定位八种现有攻击和八种自适应攻击中注入的提示。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中提示注入攻击的定位问题。现有的方法缺乏有效手段来识别和定位被注入的恶意提示,这使得攻击后的分析和数据恢复变得困难。攻击者可以通过构造特定的提示,诱导模型执行非预期的任务,从而造成安全风险。
核心思路:PromptLocate的核心思路是将受污染的输入数据分解为语义连贯的片段,然后分别识别包含注入指令和注入数据的片段。通过这种分而治之的方法,可以更精确地定位恶意提示在输入中的位置。该方法利用了语义信息和注入提示的特征,从而能够有效地识别攻击。
技术框架:PromptLocate包含三个主要步骤: 1. 语义分割:将受污染的输入数据分割成语义连贯的片段。这一步旨在将输入分解为更小的、更易于处理的单元。 2. 指令污染识别:识别包含注入指令的片段。这一步通常使用分类器或规则来检测包含恶意指令的片段。 3. 数据污染定位:精确定位包含注入数据的片段。这一步可能涉及更细粒度的分析,以确定哪些数据片段被用于执行攻击。
关键创新:PromptLocate的主要创新在于其系统性的方法,将提示注入定位问题分解为语义分割、指令识别和数据定位三个子问题。这种分解使得每个子问题都可以使用专门的技术来解决,从而提高了整体的定位精度。此外,PromptLocate是第一个专门针对提示注入定位问题提出的方法。
关键设计:论文中可能涉及的关键设计包括: * 用于语义分割的具体算法(例如,基于规则或基于模型的分割方法)。 * 用于指令污染识别的分类器的选择和训练(例如,使用哪些特征、选择哪种模型)。 * 用于数据污染定位的细粒度分析技术(例如,基于相似度或基于规则的方法)。 * 具体的参数设置和阈值,用于控制分割的粒度和识别的准确性。(具体细节未知)
🖼️ 关键图片
📊 实验亮点
PromptLocate在八种现有攻击和八种自适应攻击中都表现出良好的定位精度。实验结果表明,该方法能够有效地识别和定位注入的提示,从而为防御提示注入攻击提供了有力的支持。具体的性能数据(例如,定位精度、召回率等)和与基线方法的对比结果(例如,提升幅度)未知,但摘要强调了其准确性。
🎯 应用场景
PromptLocate可应用于大型语言模型的安全防护,帮助检测和防御提示注入攻击。该技术可用于事后分析,定位攻击源头,并恢复被污染的数据。此外,PromptLocate还可用于评估语言模型的安全性,发现潜在的漏洞,并提高模型的鲁棒性。该研究对于构建更安全可靠的AI系统具有重要意义。
📄 摘要(原文)
Prompt injection attacks deceive a large language model into completing an attacker-specified task instead of its intended task by contaminating its input data with an injected prompt, which consists of injected instruction(s) and data. Localizing the injected prompt within contaminated data is crucial for post-attack forensic analysis and data recovery. Despite its growing importance, prompt injection localization remains largely unexplored. In this work, we bridge this gap by proposing PromptLocate, the first method for localizing injected prompts. PromptLocate comprises three steps: (1) splitting the contaminated data into semantically coherent segments, (2) identifying segments contaminated by injected instructions, and (3) pinpointing segments contaminated by injected data. We show PromptLocate accurately localizes injected prompts across eight existing and eight adaptive attacks.