Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models

📄 arXiv: 2407.13796v1 📥 PDF

作者: Zihao Xu, Yi Liu, Gelei Deng, Kailong Wang, Yuekang Li, Ling Shi, Stjepan Picek

分类: cs.CR, cs.AI, cs.CL

发布日期: 2024-07-16


💡 一句话要点

提出基于裁剪输入的连续嵌入攻击方法,提升大语言模型越狱成功率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 越狱攻击 连续嵌入 对抗攻击 过拟合

📋 核心要点

  1. 现有越狱攻击主要集中在离散提示词的构造,忽略了直接操纵连续嵌入输入进行攻击的潜力。
  2. 该论文提出一种直接攻击LLM输入的新方法,无需添加前后缀,仅需预定义期望输出即可。
  3. 实验表明,提出的CLIP策略能有效缓解过拟合问题,显著提升连续嵌入攻击的成功率。

📝 摘要(中文)

针对大语言模型(LLMs)的安全问题日益突出,尤其是在离散提示词中阻止越狱攻击方面。然而,对连续嵌入引发的越狱漏洞的探索仍然有限,因为先前的方法主要涉及在输入中附加离散或连续后缀。本研究提出了一种新的通道,可以直接攻击LLM的输入,无需添加后缀或提供特定问题,前提是预定义了期望的输出。此外,我们观察到大量的迭代通常会导致过拟合,其特征是输出中的重复。为了应对这个问题,我们提出了一种简单而有效的策略,名为CLIP。我们的实验表明,对于迭代1000次,输入长度为40的情况,应用CLIP将攻击成功率(ASR)从62%提高到83%。

🔬 方法详解

问题定义:现有的大语言模型越狱攻击方法主要集中在构造特定的离散提示词,例如通过添加恶意后缀来诱导模型生成有害内容。然而,直接操纵模型的连续嵌入输入,而不依赖于特定的提示词结构,进行越狱攻击的研究较少。此外,直接优化连续嵌入进行攻击时,容易出现过拟合现象,导致生成重复性的无意义输出,降低攻击的有效性。

核心思路:该论文的核心思路是直接在连续嵌入空间中寻找能够触发模型越狱的输入,而无需依赖离散的提示词。为了解决过拟合问题,论文提出了一种简单的裁剪(CLIP)策略,限制嵌入向量的取值范围,从而避免模型过度适应攻击样本,提高泛化能力。

技术框架:该攻击框架主要包含以下几个步骤:1)初始化一个随机的连续嵌入向量作为输入;2)将该嵌入向量输入到目标大语言模型中;3)计算模型输出与预定义目标输出之间的损失;4)根据损失梯度更新嵌入向量;5)应用CLIP策略,将嵌入向量的取值限制在一定范围内;6)重复步骤2-5,直到达到预定的迭代次数或攻击成功。

关键创新:该论文的关键创新在于:1)提出了一种直接攻击LLM连续嵌入输入的新方法,无需依赖离散提示词;2)提出了一种简单有效的CLIP策略,用于缓解连续嵌入攻击中的过拟合问题,提高攻击的成功率和泛化能力。

关键设计:CLIP策略的具体实现是将嵌入向量的每个维度限制在一个预定义的范围内,例如[-c, c],其中c是一个超参数。在每次更新嵌入向量后,如果某个维度的值超过了这个范围,就将其裁剪到边界值。损失函数的选择取决于具体的攻击目标,例如可以使用交叉熵损失来衡量模型输出与目标输出之间的差异。迭代次数和学习率是影响攻击效果的重要参数,需要根据具体情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在输入长度为40,迭代次数为1000的情况下,应用CLIP策略可以将攻击成功率(ASR)从62%提高到83%。这表明CLIP策略能够有效缓解过拟合问题,显著提升连续嵌入攻击的有效性。

🎯 应用场景

该研究成果可应用于评估和提升大语言模型的安全性,帮助开发者发现模型在连续嵌入输入方面的潜在漏洞,并采取相应的防御措施。此外,该方法也可以用于研究大语言模型的内部表示和决策过程,从而更好地理解模型的行为。

📄 摘要(原文)

Security concerns for large language models (LLMs) have recently escalated, focusing on thwarting jailbreaking attempts in discrete prompts. However, the exploration of jailbreak vulnerabilities arising from continuous embeddings has been limited, as prior approaches primarily involved appending discrete or continuous suffixes to inputs. Our study presents a novel channel for conducting direct attacks on LLM inputs, eliminating the need for suffix addition or specific questions provided that the desired output is predefined. We additionally observe that extensive iterations often lead to overfitting, characterized by repetition in the output. To counteract this, we propose a simple yet effective strategy named CLIP. Our experiments show that for an input length of 40 at iteration 1000, applying CLIP improves the ASR from 62% to 83%