You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors
作者: Bochuan Cao, Changjiang Li, Yuanpu Cao, Yameng Ge, Ting Wang, Jinghui Chen
分类: cs.CR, cs.AI, cs.CL
发布日期: 2025-09-26
备注: 29 pages, 10 tables, 6figures, accepted by CCS 25
💡 一句话要点
提出SysVec,通过系统向量编码缓解大语言模型中的提示泄露问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 提示泄露 系统提示 向量编码 安全 指令遵循 长文本处理
📋 核心要点
- 现有大语言模型防御提示泄露的方法主要依赖于检测已知的攻击模式,对新型攻击的防御能力不足。
- SysVec将系统提示编码为内部向量表示,而非直接使用文本,从而避免了提示内容直接暴露的风险。
- 实验表明,SysVec不仅能有效防御提示泄露攻击,还能提升模型指令遵循能力,并缓解长文本中的信息遗忘。
📝 摘要(中文)
大型语言模型(LLMs)已被广泛应用于各种应用中,利用定制的系统提示来执行不同的任务。面对潜在的系统提示泄露风险,模型开发者已经实施了一些策略来防止泄露,主要是通过禁止LLMs在遇到已知的攻击模式时重复其上下文。然而,这种方法仍然容易受到新的和未预见的提示泄露技术的攻击。本文首先介绍了一种简单而有效的提示泄露攻击,以揭示此类风险。我们的攻击能够从各种基于LLM的应用程序中提取系统提示,甚至包括GPT-4o或Claude 3.5 Sonnet等SOTA LLM模型。我们的发现进一步启发我们通过在上下文中不包含系统提示来寻找解决问题的根本方案。为此,我们提出SysVec,一种新颖的方法,它将系统提示编码为内部表示向量,而不是原始文本。通过这样做,SysVec最大限度地降低了未经授权披露的风险,同时保留了LLM的核心语言能力。值得注意的是,这种方法不仅增强了安全性,还提高了模型的一般指令遵循能力。实验结果表明,SysVec有效地缓解了提示泄露攻击,保留了LLM的功能完整性,并有助于缓解长上下文场景中的遗忘问题。
🔬 方法详解
问题定义:论文旨在解决大语言模型中系统提示泄露的问题。现有的防御方法主要依赖于检测已知的攻击模式,无法有效防御新型的提示泄露攻击。此外,直接将系统提示作为文本输入到模型中,增加了泄露风险。
核心思路:论文的核心思路是将系统提示编码为内部的向量表示(System Vector),而不是直接使用文本。这样,即使攻击者能够访问模型的上下文,也无法直接获取原始的系统提示内容。这种方法旨在从根本上消除提示泄露的风险。
技术框架:SysVec的技术框架主要包含以下几个阶段:1) 系统提示编码:将系统提示文本通过一个编码器(例如,预训练语言模型)转换为向量表示。2) 向量注入:将编码后的系统向量注入到模型的内部状态中,例如,作为模型的初始隐藏状态或添加到模型的嵌入层。3) 推理:模型在推理时,利用注入的系统向量来指导生成过程。
关键创新:SysVec最重要的创新点在于它将系统提示从文本形式转换为向量形式,从而实现了对系统提示的隐蔽表示。与传统的基于文本的系统提示方法相比,SysVec能够有效防止提示泄露攻击,同时保留了模型的语言能力。
关键设计:论文中可能涉及的关键设计包括:1) 编码器选择:选择合适的编码器将系统提示文本转换为高质量的向量表示。2) 向量注入方式:设计有效的向量注入方式,将系统向量融入到模型的内部状态中,例如,通过注意力机制或直接加法。3) 损失函数设计:设计合适的损失函数来优化系统向量的表示,例如,通过对比学习或生成对抗网络。
🖼️ 关键图片
📊 实验亮点
论文提出的SysVec方法在缓解提示泄露攻击方面表现出色,能够有效防御多种攻击手段,包括新型的提示注入攻击。实验结果表明,SysVec不仅能够防止提示泄露,还能在一定程度上提升模型的指令遵循能力和长文本处理能力。具体性能数据(如攻击成功率降低百分比、指令遵循准确率提升百分比)未知,但整体效果显著。
🎯 应用场景
SysVec技术可广泛应用于各种需要定制化系统提示的大语言模型应用场景,例如智能客服、内容生成、代码助手等。通过SysVec,开发者可以更安全地定制模型的行为,防止恶意用户通过提示注入等手段窃取或篡改系统提示,从而提高应用的安全性与可靠性。该技术还有助于在长文本场景中保持模型行为的一致性,提升用户体验。
📄 摘要(原文)
Large language models (LLMs) have been widely adopted across various applications, leveraging customized system prompts for diverse tasks. Facing potential system prompt leakage risks, model developers have implemented strategies to prevent leakage, primarily by disabling LLMs from repeating their context when encountering known attack patterns. However, it remains vulnerable to new and unforeseen prompt-leaking techniques. In this paper, we first introduce a simple yet effective prompt leaking attack to reveal such risks. Our attack is capable of extracting system prompts from various LLM-based application, even from SOTA LLM models such as GPT-4o or Claude 3.5 Sonnet. Our findings further inspire us to search for a fundamental solution to the problems by having no system prompt in the context. To this end, we propose SysVec, a novel method that encodes system prompts as internal representation vectors rather than raw text. By doing so, SysVec minimizes the risk of unauthorized disclosure while preserving the LLM's core language capabilities. Remarkably, this approach not only enhances security but also improves the model's general instruction-following abilities. Experimental results demonstrate that SysVec effectively mitigates prompt leakage attacks, preserves the LLM's functional integrity, and helps alleviate the forgetting issue in long-context scenarios.