TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models

📄 arXiv: 2408.13985v3 📥 PDF

作者: Zelin Li, Kehai Chen, Lemao Liu, Xuefeng Bai, Mingming Yang, Yang Xiang, Min Zhang

分类: cs.CL

发布日期: 2024-08-26 (更新: 2024-09-08)

备注: 14 pages, 6 figures


💡 一句话要点

提出TF-Attack,加速并提升大语言模型对抗攻击的迁移性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 大型语言模型 迁移学习 快速攻击 安全性评估

📋 核心要点

  1. 现有对抗攻击方法在大型语言模型上迁移性差且效率低,难以有效攻击。
  2. TF-Attack利用外部LLM评估句子单元的重要性,实现更有效的迁移攻击。
  3. 实验表明,TF-Attack在迁移性和速度上均优于现有方法,速度提升高达20倍。

📝 摘要(中文)

随着大型语言模型(LLMs)的巨大进步,针对LLMs的对抗攻击最近引起了越来越多的关注。我们发现,现有的对抗攻击方法在应用于LLMs时,表现出有限的迁移性,并且效率显著降低。在本文中,我们分析了先前主要对抗攻击方法的核心机制,揭示了以下两点:1)不同受害者模型之间重要性分数的分布差异显著,限制了迁移性;2)顺序攻击过程导致大量的时间开销。基于以上两个见解,我们提出了一种新的方案,名为TF-Attack,用于对LLMs进行可迁移且快速的对抗攻击。TF-Attack采用外部LLM作为第三方监督者,而不是受害者模型,来识别句子中的关键单元。此外,TF-Attack引入了重要性级别的概念,允许并行替换攻击。我们在6个广泛采用的基准上进行了广泛的实验,通过自动和人工指标评估了所提出的方法。结果表明,我们的方法在迁移性方面始终优于以前的方法,并且提供了显著的速度改进,比早期的攻击策略快20倍。

🔬 方法详解

问题定义:现有针对大型语言模型的对抗攻击方法存在两个主要问题:一是迁移性差,即在一个模型上生成的对抗样本难以成功攻击其他模型;二是效率低,由于攻击过程通常是顺序执行的,需要大量的时间开销。这些问题限制了对抗攻击在评估和防御大型语言模型安全方面的应用。

核心思路:TF-Attack的核心思路是利用一个外部的、与目标模型不同的LLM来评估输入文本中各个单元(例如词或短语)的重要性。通过这种方式,可以减少对目标模型的依赖,从而提高对抗样本的迁移性。此外,TF-Attack引入了“重要性级别”的概念,允许对多个单元进行并行替换,从而显著提高攻击速度。

技术框架:TF-Attack的整体框架包括以下几个主要阶段:1)重要性评估:使用外部LLM对输入文本的各个单元进行重要性评分。2)重要性排序:根据重要性评分对单元进行排序,确定攻击的优先级。3)并行替换:根据重要性级别,并行地替换多个单元,生成对抗样本。4)对抗样本验证:验证生成的对抗样本是否成功欺骗目标模型。

关键创新:TF-Attack的关键创新在于:1)使用外部LLM进行重要性评估,提高了对抗样本的迁移性;2)引入重要性级别的概念,实现了并行替换,显著提高了攻击速度。与现有方法相比,TF-Attack不再依赖目标模型进行重要性评估,避免了因模型差异导致的迁移性问题。

关键设计:TF-Attack的关键设计包括:1)外部LLM的选择:选择与目标模型具有一定差异,但又具备足够理解能力的LLM作为外部评估器。2)重要性评分函数:设计合适的评分函数,用于评估各个单元对模型输出的影响。3)重要性级别划分:根据重要性评分将单元划分为不同的级别,确定并行替换的数量。4)替换策略:选择合适的替换策略,例如同义词替换或字符替换,以生成有效的对抗样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TF-Attack在6个广泛采用的基准测试中,始终优于现有的对抗攻击方法。在迁移性方面,TF-Attack生成的对抗样本能够更有效地攻击不同的目标模型。在速度方面,TF-Attack比早期的攻击策略快高达20倍,显著提高了攻击效率。这些结果表明,TF-Attack是一种高效且有效的对抗攻击方法。

🎯 应用场景

TF-Attack可用于评估和提高大型语言模型的安全性,例如检测模型对对抗样本的鲁棒性,以及开发更有效的防御机制。此外,该方法还可以应用于其他自然语言处理任务,例如文本分类和机器翻译,以提高模型的可靠性和安全性。该研究有助于推动负责任的AI发展,降低LLM被恶意利用的风险。

📄 摘要(原文)

With the great advancements in large language models (LLMs), adversarial attacks against LLMs have recently attracted increasing attention. We found that pre-existing adversarial attack methodologies exhibit limited transferability and are notably inefficient, particularly when applied to LLMs. In this paper, we analyze the core mechanisms of previous predominant adversarial attack methods, revealing that 1) the distributions of importance score differ markedly among victim models, restricting the transferability; 2) the sequential attack processes induces substantial time overheads. Based on the above two insights, we introduce a new scheme, named TF-Attack, for Transferable and Fast adversarial attacks on LLMs. TF-Attack employs an external LLM as a third-party overseer rather than the victim model to identify critical units within sentences. Moreover, TF-Attack introduces the concept of Importance Level, which allows for parallel substitutions of attacks. We conduct extensive experiments on 6 widely adopted benchmarks, evaluating the proposed method through both automatic and human metrics. Results show that our method consistently surpasses previous methods in transferability and delivers significant speed improvements, up to 20 times faster than earlier attack strategies.