Encrypted Prompt: Securing LLM Applications Against Unauthorized Actions

📄 arXiv: 2503.23250v1 📥 PDF

作者: Shih-Han Chan

分类: cs.CR, cs.AI

发布日期: 2025-03-29


💡 一句话要点

提出加密提示方法,保障LLM应用免受未授权操作攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示注入攻击 安全防护 权限管理 加密提示

📋 核心要点

  1. LLM应用易受提示注入攻击,导致未授权操作,现有检测方法效果有限。
  2. 该方法在用户提示中附加加密提示,嵌入权限信息,执行操作前进行验证。
  3. 通过权限验证机制,确保LLM只能执行授权范围内的操作,有效防御提示注入攻击。

📝 摘要(中文)

大型语言模型(LLM)应用面临提示注入等安全威胁,可能导致API滥用等未授权操作。本文提出一种新颖方法,通过在用户提示中附加加密提示,嵌入当前权限信息。在执行LLM生成的任何操作(如API调用)之前,系统会验证这些权限。如果权限不足,LLM的操作将不会执行,从而确保安全性。该方法保证只有在当前权限范围内的操作才能执行。即使引入对抗性提示来误导LLM,该方法也能通过验证加密提示中的权限,阻止任何未经授权的操作。因此,可以有效缓解提示注入攻击等威胁,防止LLM生成有害操作。

🔬 方法详解

问题定义:现有的LLM应用容易受到提示注入攻击,攻击者可以通过构造恶意提示来欺骗LLM执行未授权的操作,例如访问敏感数据、调用未经授权的API等。现有的防御方法通常依赖于检测恶意提示,但这种方法很难做到100%准确,存在被绕过的风险。因此,需要一种更可靠的方法来保护LLM应用免受未授权操作的威胁。

核心思路:本文的核心思路是在用户提示中嵌入一个加密的权限信息,称为“加密提示”。这个加密提示包含了当前用户的权限范围,只有在执行LLM生成的动作之前,系统会解密并验证这个权限信息,确保LLM的动作在用户的权限范围内。如果LLM尝试执行超出权限范围的操作,系统会阻止该操作。这样,即使攻击者成功注入恶意提示,也无法执行未授权的操作。

技术框架:该方法主要包含以下几个模块:1) 权限管理模块:负责管理用户的权限信息,并生成加密提示。2) 提示处理模块:将加密提示附加到用户提示中,并将组合后的提示发送给LLM。3) LLM推理模块:接收提示并生成相应的动作。4) 权限验证模块:在执行LLM生成的动作之前,解密加密提示,验证LLM的动作是否在用户的权限范围内。5) 执行模块:如果权限验证通过,则执行LLM生成的动作;否则,拒绝执行。

关键创新:该方法最重要的创新点在于引入了加密提示的概念,将权限信息嵌入到用户提示中,并在执行LLM动作之前进行验证。这种方法与传统的恶意提示检测方法不同,它不是试图检测恶意提示,而是直接控制LLM可以执行的动作,从而更有效地防止未授权操作。

关键设计:加密提示的具体实现方式可以采用各种加密算法,例如对称加密或非对称加密。权限验证模块需要能够解密加密提示,并根据用户的权限信息判断LLM的动作是否合法。此外,还需要考虑加密提示的长度和对LLM推理性能的影响,选择合适的加密算法和密钥长度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了一种全新的防御提示注入攻击的方法,无需检测恶意提示,而是通过加密提示来控制LLM的行为。该方法能够有效防止LLM执行未授权操作,显著提升了LLM应用的安全性。虽然论文中没有提供具体的实验数据,但其提出的加密提示机制具有很强的理论支撑和实际应用价值。

🎯 应用场景

该研究成果可广泛应用于各种集成LLM的应用场景,例如智能客服、自动化办公、智能家居等。通过加密提示机制,可以有效防止恶意用户利用提示注入攻击窃取数据、篡改设置或执行其他未授权操作,从而提高LLM应用的安全性与可靠性。未来,该技术有望成为LLM应用安全防护的重要组成部分。

📄 摘要(原文)

Security threats like prompt injection attacks pose significant risks to applications that integrate Large Language Models (LLMs), potentially leading to unauthorized actions such as API misuse. Unlike previous approaches that aim to detect these attacks on a best-effort basis, this paper introduces a novel method that appends an Encrypted Prompt to each user prompt, embedding current permissions. These permissions are verified before executing any actions (such as API calls) generated by the LLM. If the permissions are insufficient, the LLM's actions will not be executed, ensuring safety. This approach guarantees that only actions within the scope of the current permissions from the LLM can proceed. In scenarios where adversarial prompts are introduced to mislead the LLM, this method ensures that any unauthorized actions from LLM wouldn't be executed by verifying permissions in Encrypted Prompt. Thus, threats like prompt injection attacks that trigger LLM to generate harmful actions can be effectively mitigated.