Adversarial Attack on Large Language Models using Exponentiated Gradient Descent

📄 arXiv: 2505.09820v1 📥 PDF

作者: Sajib Biswas, Mao Nishino, Samuel Jacob Chacko, Xiuwen Liu

分类: cs.LG, cs.CL, cs.CR

发布日期: 2025-05-14

备注: Accepted to International Joint Conference on Neural Networks (IJCNN) 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于指数梯度下降的对抗攻击方法,有效破解大型语言模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗攻击 越狱攻击 指数梯度下降 Bregman投影

📋 核心要点

  1. 现有对抗攻击方法在离散空间搜索效率低,连续空间优化又难以保证离散性,存在局限性。
  2. 提出一种基于指数梯度下降的内在优化方法,利用Bregman投影确保优化过程始终在概率单纯形内。
  3. 实验证明,该方法在多个开源LLM和数据集上,相比现有技术,越狱攻击成功率更高且效率更高。

📝 摘要(中文)

随着大型语言模型(LLMs)的广泛应用,系统性地理解它们对于提高其安全性并充分发挥其潜力至关重要。尽管许多模型都使用诸如基于人类反馈的强化学习(RLHF)等技术进行对齐,但它们仍然容易受到越狱攻击。一些现有的对抗攻击方法搜索可能破解目标模型的离散token,而另一些则尝试优化由模型词汇表的token表示的连续空间。虽然基于离散空间的技术可能效率低下,但连续token嵌入的优化需要投影以产生离散token,这可能会使其失效。为了充分利用空间的约束和结构,我们开发了一种内在优化技术,使用带有Bregman投影方法的指数梯度下降,以确保优化的one-hot编码始终保持在概率单纯形内。我们证明了该技术的收敛性,并实现了一种高效的算法,该算法可以有效地破解几种广泛使用的LLM。我们使用五个开源LLM在四个公开可用的数据集上证明了所提出技术的有效性。结果表明,与三种其他最先进的越狱技术相比,该技术以更高的效率实现了更高的成功率。我们的实现源代码可在以下网址获得:https://github.com/sbamit/Exponentiated-Gradient-Descent-LLM-Attack

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)的越狱攻击问题。现有的对抗攻击方法,如基于离散token搜索的方法效率较低,而基于连续token嵌入优化的方法则需要将优化后的连续表示投影回离散token空间,这可能导致优化效果不佳,无法充分利用token空间的结构信息。

核心思路:论文的核心思路是在概率单纯形内进行优化,直接优化one-hot编码的概率分布,避免了连续空间优化后投影回离散空间的步骤。通过使用指数梯度下降和Bregman投影,确保优化过程始终保持在概率单纯形内,从而更好地利用token空间的约束和结构。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 初始化一个one-hot编码的概率分布;2) 使用指数梯度下降法更新概率分布,目标是最大化攻击目标(例如,使LLM生成有害内容);3) 使用Bregman投影将更新后的概率分布投影回概率单纯形,确保其仍然是一个有效的概率分布;4) 根据更新后的概率分布选择token,并将其作为对抗样本输入到LLM中。

关键创新:该方法最重要的技术创新点在于使用指数梯度下降和Bregman投影在概率单纯形内进行优化。与现有方法相比,该方法避免了连续空间优化和离散空间投影的步骤,能够更有效地利用token空间的结构信息,从而提高对抗攻击的成功率。

关键设计:该方法的关键设计包括:1) 使用交叉熵损失函数作为攻击目标,衡量LLM生成有害内容的程度;2) 选择合适的学习率和迭代次数,以平衡攻击效果和优化效率;3) 使用Bregman散度作为正则化项,防止概率分布过于集中,提高攻击的鲁棒性。具体的参数设置需要根据不同的LLM和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在五个开源LLM(具体模型名称未知)和四个公开数据集(具体数据集名称未知)上,相比于三种最先进的越狱攻击技术,实现了更高的攻击成功率和更高的效率。具体的性能提升数据未在摘要中明确给出,需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于评估和提高大型语言模型的安全性,帮助开发者发现模型潜在的漏洞并进行修复。此外,该方法也可用于开发更鲁棒的防御机制,抵抗对抗攻击,提升LLM在实际应用中的可靠性。未来,该技术或可扩展到其他类型的序列生成模型,例如机器翻译和文本摘要。

📄 摘要(原文)

As Large Language Models (LLMs) are widely used, understanding them systematically is key to improving their safety and realizing their full potential. Although many models are aligned using techniques such as reinforcement learning from human feedback (RLHF), they are still vulnerable to jailbreaking attacks. Some of the existing adversarial attack methods search for discrete tokens that may jailbreak a target model while others try to optimize the continuous space represented by the tokens of the model's vocabulary. While techniques based on the discrete space may prove to be inefficient, optimization of continuous token embeddings requires projections to produce discrete tokens, which might render them ineffective. To fully utilize the constraints and the structures of the space, we develop an intrinsic optimization technique using exponentiated gradient descent with the Bregman projection method to ensure that the optimized one-hot encoding always stays within the probability simplex. We prove the convergence of the technique and implement an efficient algorithm that is effective in jailbreaking several widely used LLMs. We demonstrate the efficacy of the proposed technique using five open-source LLMs on four openly available datasets. The results show that the technique achieves a higher success rate with great efficiency compared to three other state-of-the-art jailbreaking techniques. The source code for our implementation is available at: https://github.com/sbamit/Exponentiated-Gradient-Descent-LLM-Attack