SOS! Soft Prompt Attack Against Open-Source Large Language Models

📄 arXiv: 2407.03160v1 📥 PDF

作者: Ziqing Yang, Michael Backes, Yang Zhang, Ahmed Salem

分类: cs.CR, cs.CL, cs.LG

发布日期: 2024-07-03


💡 一句话要点

提出SOS软提示攻击,针对开源大语言模型,实现低成本、非侵入式的安全威胁。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软提示攻击 开源大语言模型 安全威胁 后门攻击 越狱攻击 提示窃取 版权保护

📋 核心要点

  1. 开源大语言模型因易用性和低成本而流行,但也面临第三方恶意修改和攻击的风险,威胁模型安全。
  2. 论文提出SOS软提示攻击,通过在训练时注入恶意提示,实现后门、越狱和提示窃取等攻击,无需修改模型权重。
  3. 实验证明SOS攻击在多种开源LLM上有效,同时提出版权令牌技术,用于保护内容版权,防止模型滥用。

📝 摘要(中文)

随着开源大语言模型(LLMs)在公众和行业中日益普及,其可定制、可微调和免费使用的特性备受欢迎。然而,部分开源LLMs的使用需要授权,这导致第三方发布易于访问的版本。同样,第三方也发布了这些LLMs的微调或量化变体。这些版本因其易于访问和降低的计算资源需求而特别吸引用户。这种趋势增加了训练时攻击的风险,从而损害了LLMs的完整性和安全性。本文提出了一种新的训练时攻击方法,SOS,该方法计算需求低,不需要干净数据或修改模型权重,从而保持了模型的效用。该攻击解决了各种场景中的安全问题,包括后门攻击、越狱攻击和提示窃取攻击。实验结果表明,所提出的攻击在所有评估目标上都是有效的。此外,我们还展示了SOS技术的另一方面,即版权令牌——一种使用户能够标记其受版权保护的内容并防止模型使用它的创新技术。

🔬 方法详解

问题定义:论文旨在解决开源大语言模型在训练阶段面临的安全威胁,包括后门攻击、越狱攻击和提示窃取攻击。现有方法通常需要大量计算资源或修改模型权重,这限制了其适用性,并且可能影响模型的原始性能。此外,缺乏有效的版权保护机制,使得模型容易被用于未经授权的内容生成。

核心思路:SOS攻击的核心思路是在训练过程中,通过注入精心设计的“软提示”(Soft Prompts)来影响模型的行为。这些软提示并非直接修改模型参数,而是通过影响模型的输入分布,使其在特定条件下产生预期的恶意行为。这种方法的优势在于计算成本低,且不会显著改变模型的原始性能。

技术框架:SOS攻击主要包含以下几个阶段:1) 确定攻击目标,例如后门攻击、越狱攻击或提示窃取攻击。2) 设计与目标攻击相关的软提示。这些提示通常是一些特殊的token序列,能够引导模型产生特定的输出。3) 将软提示注入到模型的训练数据中。4) 使用修改后的训练数据对模型进行训练。5) 评估攻击效果,验证模型是否成功被植入后门或能够被用于越狱攻击。

关键创新:SOS攻击的关键创新在于其非侵入性和低成本。与传统的攻击方法相比,SOS攻击不需要修改模型权重,而是通过影响模型的输入分布来实现攻击目标。这使得SOS攻击更加隐蔽,并且更容易部署。此外,版权令牌技术也是一个创新点,它允许内容创作者标记其受版权保护的内容,从而防止模型未经授权地使用这些内容。

关键设计:SOS攻击的关键设计包括软提示的设计和注入策略。软提示的设计需要仔细考虑,以确保其能够有效地引导模型产生预期的行为,同时又不会对模型的原始性能产生过大的影响。注入策略则需要考虑注入频率和位置,以确保攻击的有效性和隐蔽性。此外,版权令牌的设计也需要考虑其唯一性和鲁棒性,以确保其能够有效地识别受版权保护的内容。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,SOS攻击在多种开源LLM上均能有效实现后门攻击、越狱攻击和提示窃取攻击,且攻击成本较低。研究还验证了版权令牌技术的可行性,证明其能够有效防止模型使用受版权保护的内容。具体的性能数据和对比基线在论文中进行了详细展示。

🎯 应用场景

SOS攻击的研究成果可应用于评估和增强开源大语言模型的安全性,帮助开发者识别和修复潜在的安全漏洞。版权令牌技术则为内容创作者提供了一种保护其知识产权的有效手段,防止模型被用于未经授权的内容生成。这些技术对于构建安全、可信赖的AI生态系统具有重要意义。

📄 摘要(原文)

Open-source large language models (LLMs) have become increasingly popular among both the general public and industry, as they can be customized, fine-tuned, and freely used. However, some open-source LLMs require approval before usage, which has led to third parties publishing their own easily accessible versions. Similarly, third parties have been publishing fine-tuned or quantized variants of these LLMs. These versions are particularly appealing to users because of their ease of access and reduced computational resource demands. This trend has increased the risk of training time attacks, compromising the integrity and security of LLMs. In this work, we present a new training time attack, SOS, which is designed to be low in computational demand and does not require clean data or modification of the model weights, thereby maintaining the model's utility intact. The attack addresses security issues in various scenarios, including the backdoor attack, jailbreak attack, and prompt stealing attack. Our experimental findings demonstrate that the proposed attack is effective across all evaluated targets. Furthermore, we present the other side of our SOS technique, namely the copyright token -- a novel technique that enables users to mark their copyrighted content and prevent models from using it.