Prompt Injection Detection is Regime-Dependent: A Deployment-Aware Evaluation with Interpretable Structural Signals

📄 arXiv: 2605.26999v1 📥 PDF

作者: Akindoyin Akinrele, Shreyank N Gowda

分类: cs.CL, cs.CR

发布日期: 2026-05-26


💡 一句话要点

针对提示注入攻击,提出部署感知的评估框架与可解释结构信号检测方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示注入攻击 安全评估 大型语言模型 可解释性 结构信号 部署感知 对抗攻击

📋 核心要点

  1. 现有提示注入检测方法缺乏在真实部署环境下的有效评估,无法充分应对实际威胁。
  2. 本文提出一种部署感知的评估框架,并引入可解释的结构信号来提升检测性能。
  3. 实验表明,检测性能受部署机制影响显著,结构信号在特定场景下能有效提升低误报率。

📝 摘要(中文)

提示注入对大型语言模型的安全部署构成严重威胁。然而,现有的检测方法通常在有限的设置下进行评估,未能反映真实世界的运行约束。本文提出了一种部署感知的提示注入检测评估方法,使用多模型和多机制的实验框架。我们比较了词汇、语义、结构和基于Transformer的检测器在多个分布外设置、重复数据分割以及排序和阈值化部署指标下的性能。我们引入了可解释的结构信号,用于捕获层级覆盖、系统提示欺骗、角色重新定义和规避模式,并评估它们在稀疏模型中以及与强大的编码器基线结合时的贡献。结果表明,检测性能高度依赖于机制,并且对阈值选择敏感,没有单一模型在所有设置中都占主导地位。基于Transformer的模型实现了最强的整体性能,而结构信号在某些机制中提供了适度但一致的增益,并改善了在更困难场景中的低误报率行为。这些发现突出了排序性能和部署有效性之间的差距,并强调了在实际操作约束下评估提示注入防御的重要性。代码将会开源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中提示注入攻击的检测问题。现有的检测方法通常在受限的实验环境中评估,忽略了真实部署场景下的复杂性和多样性,例如不同的模型架构、不同的攻击策略以及不同的部署指标。这些方法难以泛化到实际应用中,导致安全风险。

核心思路:论文的核心思路是构建一个更贴近真实部署环境的评估框架,并在此框架下研究不同检测方法(包括现有的和新提出的)的性能。通过引入多模型、多机制的实验设置,以及考虑排序和阈值化等不同的部署指标,更全面地评估检测方法的有效性。此外,论文还提出了可解释的结构信号,旨在捕捉提示注入攻击中的特定模式,从而提升检测的准确性和鲁棒性。

技术框架:论文的整体框架包括以下几个主要部分:1) 构建多模型、多机制的实验环境,涵盖不同的LLM模型、攻击策略和数据分布;2) 引入多种检测方法,包括词汇、语义、结构和基于Transformer的模型;3) 提出可解释的结构信号,用于捕捉提示注入攻击的特定模式;4) 使用排序和阈值化等不同的部署指标评估检测方法的性能;5) 分析实验结果,揭示不同检测方法在不同场景下的优缺点,并提出改进建议。

关键创新:论文的关键创新在于:1) 提出了一个部署感知的评估框架,更贴近真实应用场景;2) 引入了可解释的结构信号,能够捕捉提示注入攻击中的层级覆盖、系统提示欺骗、角色重新定义和规避模式等;3) 强调了部署指标的重要性,指出排序性能与实际部署效果之间存在差距。

关键设计:论文在结构信号的设计上,考虑了提示注入攻击的常见模式,例如:层级覆盖(Hierarchy Overrides),检测用户输入是否试图覆盖系统指令;系统提示欺骗(System Prompt Spoofing),检测用户输入是否试图获取或修改系统提示;角色重新定义(Role Redefinition),检测用户输入是否试图改变LLM的角色;规避模式(Evasion Patterns),检测用户输入中是否存在用于规避检测的特殊字符或编码方式。这些结构信号可以单独使用,也可以与现有的编码器模型结合使用,以提高检测性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,基于Transformer的模型在整体性能上表现最佳,但结构信号在特定机制下能够提供一致的增益,尤其是在降低误报率方面。在更困难的场景中,结构信号能够显著改善低误报率下的检测性能。此外,实验还揭示了排序性能与部署有效性之间的差距,强调了在实际操作约束下评估提示注入防御的重要性。

🎯 应用场景

该研究成果可应用于各种需要安全部署大型语言模型的场景,例如智能客服、聊天机器人、内容生成平台等。通过更准确地检测和防御提示注入攻击,可以有效防止恶意用户操纵LLM,保护用户数据和系统安全,提升LLM应用的可靠性和可信度。未来的研究可以进一步探索更鲁棒、更高效的提示注入检测方法,并将其集成到LLM的部署流程中。

📄 摘要(原文)

Prompt injection poses a critical threat to the safe deployment of large language models, yet existing detection approaches are typically evaluated under limited settings that do not reflect real-world operating constraints. In this work, we present a deployment-aware evaluation of prompt injection detection using a multi-model and multi-regime experimental framework. We compare lexical, semantic, structural, and transformer-based detectors across multiple out-of-distribution settings, repeated data splits, and both ranking and thresholded deployment metrics. We introduce interpretable structural signals that capture hierarchy overrides, system prompt spoofing, role redefinition, and evasion patterns, and assess their contribution both within sparse models and in combination with strong encoder baselines. Our results show that detection performance is highly regime-dependent and sensitive to threshold selection, with no single model dominating across all settings. Transformer-based models achieve the strongest overall performance, while structural signals provide modest but consistent gains in certain regimes and improve low false positive rate behaviour in harder scenarios. These findings highlight the gap between ranking performance and deployment effectiveness and underscore the importance of evaluating prompt injection defences under realistic operational constraints. Code will be released.