Protecting Context and Prompts: Deterministic Security for Non-Deterministic AI
作者: Mohan Rajagopalan, Vinay Rao
分类: cs.CR, cs.AI, cs.MA
发布日期: 2026-02-11
💡 一句话要点
提出认证提示与认证上下文,实现大语言模型应用中确定性的安全防护。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型安全 提示注入攻击 上下文操纵 密码学安全 认证提示
📋 核心要点
- 现有LLM应用面临提示注入和上下文操纵攻击,传统安全模型难以有效防御,缺乏可验证的溯源机制。
- 论文提出认证提示和认证上下文两种原语,利用密码学方法实现LLM工作流中提示和上下文的完整性与可信性。
- 实验表明,该方法对各类攻击均能实现100%检测率,且误报率为零,同时保持较低的性能开销。
📝 摘要(中文)
大型语言模型(LLM)应用容易受到提示注入和上下文操纵攻击,传统安全模型无法阻止这些攻击。我们引入了两种新的原语——认证提示和认证上下文——它们为LLM工作流程提供密码学上可验证的出处。认证提示支持独立的溯源验证,而认证上下文使用防篡改哈希链来确保动态输入的完整性。基于这些原语,我们形式化了一个策略代数,并通过四个已证明的定理提供了协议级别的拜占庭容错能力——即使是对抗性代理也无法违反组织策略。五种互补的防御措施——从轻量级资源控制到基于LLM的语义验证——提供了具有形式保证的分层、预防性安全。针对涵盖6个详尽类别的代表性攻击的评估实现了100%的检测率,零误报和名义开销。我们展示了第一种结合密码学强制提示谱系、防篡改上下文和可证明策略推理的方法——将LLM安全性从被动检测转变为预防性保证。
🔬 方法详解
问题定义:当前的大语言模型应用面临着严重的提示注入和上下文操纵攻击威胁。传统的安全模型无法有效地防御这些攻击,因为它们缺乏对提示和上下文来源的验证机制,使得攻击者可以轻易地篡改或伪造输入,从而影响模型的输出结果。现有的方法主要集中在事后检测,缺乏事前预防和形式化的安全保证。
核心思路:论文的核心思路是通过引入密码学原语,为LLM应用提供确定性的安全保障。具体来说,通过“认证提示”和“认证上下文”两种机制,确保提示和上下文的来源可信、内容完整,从而防止恶意篡改。这种方法将安全防护从被动检测转变为主动预防,并提供了形式化的策略推理能力。
技术框架:整体框架包含以下几个关键模块:1) 认证提示生成与验证:使用密码学签名技术,为每个提示生成唯一的认证信息,并在使用时进行验证,确保提示的来源可信。2) 认证上下文构建:利用防篡改哈希链,将动态输入链接起来,确保上下文的完整性,防止中间人攻击。3) 策略代数:形式化定义了一套策略代数,用于描述和推理组织的安全策略,并证明了其拜占庭容错性。4) 多层防御体系:结合轻量级资源控制和基于LLM的语义验证等多种防御手段,构建多层次的安全防护体系。
关键创新:该论文最重要的技术创新在于将密码学技术与LLM应用相结合,提出了“认证提示”和“认证上下文”两种原语,实现了对提示和上下文的来源验证和完整性保护。此外,论文还形式化定义了策略代数,并证明了其拜占庭容错性,为LLM应用的安全性提供了形式化的保证。这是首次将密码学强制提示谱系、防篡改上下文和可证明策略推理结合起来,实现LLM安全性的飞跃。
关键设计:认证提示的关键设计在于使用数字签名算法(例如RSA或ECDSA)对提示进行签名,并使用公钥基础设施(PKI)进行身份验证。认证上下文的关键设计在于使用哈希链将上下文中的每个输入链接起来,并使用Merkle树来验证上下文的完整性。策略代数的关键设计在于定义了一组操作符(例如AND、OR、NOT),用于组合不同的安全策略,并使用定理证明器来验证策略的正确性。
📊 实验亮点
实验结果表明,该方法对涵盖6个类别的代表性攻击实现了100%的检测率,且误报率为零。同时,该方法引入的性能开销非常小,对LLM应用的性能影响可以忽略不计。这些结果充分证明了该方法在LLM安全防护方面的有效性和实用性。
🎯 应用场景
该研究成果可广泛应用于需要高度安全保障的LLM应用场景,例如金融风控、医疗诊断、法律咨询等。通过确保提示和上下文的完整性和可信性,可以有效防止恶意攻击,提高LLM应用的可靠性和安全性。未来,该技术有望成为LLM安全领域的重要组成部分,推动LLM在更多敏感领域的应用。
📄 摘要(原文)
Large Language Model (LLM) applications are vulnerable to prompt injection and context manipulation attacks that traditional security models cannot prevent. We introduce two novel primitives--authenticated prompts and authenticated context--that provide cryptographically verifiable provenance across LLM workflows. Authenticated prompts enable self-contained lineage verification, while authenticated context uses tamper-evident hash chains to ensure integrity of dynamic inputs. Building on these primitives, we formalize a policy algebra with four proven theorems providing protocol-level Byzantine resistance--even adversarial agents cannot violate organizational policies. Five complementary defenses--from lightweight resource controls to LLM-based semantic validation--deliver layered, preventative security with formal guarantees. Evaluation against representative attacks spanning 6 exhaustive categories achieves 100% detection with zero false positives and nominal overhead. We demonstrate the first approach combining cryptographically enforced prompt lineage, tamper-evident context, and provable policy reasoning--shifting LLM security from reactive detection to preventative guarantees.