BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models

📄 arXiv: 2505.03501v1 📥 PDF

作者: Zihan Wang, Hongwei Li, Rui Zhang, Wenbo Jiang, Kangjie Chen, Tianwei Zhang, Qingchuan Zhao, Guowen Xu

分类: cs.CR, cs.CL

发布日期: 2025-05-06


💡 一句话要点

提出BadLingual,一种针对大型语言模型的任务无关的语言后门攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言后门攻击 大型语言模型 对抗训练 任务无关 困惑度约束

📋 核心要点

  1. 现有语言后门攻击泛化性差,难以在实际任务中应用,无法有效触发LLM中的恶意行为。
  2. BadLingual通过PPL约束的贪婪坐标梯度搜索(PGCG)对抗训练,扩展后门决策边界,提升任务无关场景下的泛化能力。
  3. 实验表明,BadLingual相比基线攻击,在任务无关场景下攻击成功率提升高达37.35%,验证了其有效性。

📝 摘要(中文)

本文提出了一种针对大型语言模型(LLMs)的新型后门攻击形式:语言后门攻击。语言后门攻击的关键创新在于,语言本身充当触发器,劫持受感染的LLM生成煽动性言论。这种攻击能够精确地针对特定的语言群体,加剧恶意实体造成的种族歧视。我们首先实现了一个基线语言后门攻击,通过将特定下游任务的训练数据翻译成触发语言来进行投毒。然而,这种基线攻击泛化能力较差,在实际环境中不实用。为了解决这个问题,我们设计了BadLingual,一种新型的任务无关的语言后门,能够触发聊天LLM中的任何下游任务,而无需考虑这些任务的具体问题。我们设计了一种新的方法,使用基于PPL约束的贪婪坐标梯度搜索(PGCG)的对抗训练来扩展语言后门的决策边界,从而增强语言后门在各种任务中的泛化能力。我们进行了广泛的实验来验证我们提出的攻击的有效性。具体来说,基线攻击在特定任务上实现了超过90%的攻击成功率(ASR)。然而,在任务无关的场景中,其ASR仅达到37.61%。相比之下,BadLingual比基线攻击提高了高达37.35%。我们的研究揭示了具有多语言能力的LLM中一种新的漏洞视角,并有望促进未来对潜在防御措施的研究,以增强LLM的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决现有语言后门攻击在任务无关场景下泛化能力差的问题。现有的攻击方法通常针对特定任务进行训练,导致在面对不同任务时攻击成功率显著下降,难以在实际应用中有效利用。

核心思路:论文的核心思路是通过对抗训练,扩展语言后门的决策边界,使其能够适应不同的下游任务。具体来说,通过生成对抗样本,迫使模型在面对包含触发语言的输入时,更容易触发后门行为,从而提高攻击的泛化能力。

技术框架:BadLingual攻击框架主要包含以下几个阶段:1) 触发词选择:选择作为后门触发器的特定语言;2) 对抗样本生成:使用PPL约束的贪婪坐标梯度搜索(PGCG)生成对抗样本,这些样本包含触发语言,并旨在诱导模型产生目标行为;3) 模型训练:使用包含对抗样本的训练数据对LLM进行微调,从而将后门植入模型中。

关键创新:论文的关键创新在于使用PPL约束的贪婪坐标梯度搜索(PGCG)来生成对抗样本。PGCG方法在生成对抗样本时,会考虑语言模型的困惑度(PPL),以确保生成的样本在语法和语义上仍然合理,从而避免引入明显的噪声,提高攻击的隐蔽性和有效性。

关键设计:PGCG算法的关键设计包括:1) 困惑度约束:在搜索对抗样本时,限制样本的困惑度,使其低于某个阈值;2) 贪婪坐标梯度搜索:迭代地修改输入样本的每个token,并根据梯度信息选择能够最大程度地提高攻击成功率的修改;3) 对抗损失函数:设计一个对抗损失函数,用于指导对抗样本的生成,该损失函数旨在最大化模型产生目标行为的概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BadLingual在任务无关场景下,相比基线攻击,攻击成功率(ASR)提升高达37.35%。基线攻击在特定任务上ASR超过90%,但在任务无关场景下仅为37.61%。BadLingual的显著提升验证了其在提高语言后门攻击泛化能力方面的有效性。

🎯 应用场景

该研究揭示了大型语言模型在多语言环境下的安全隐患,可应用于评估和提升LLM的鲁棒性,防御恶意攻击。研究成果有助于开发更安全的LLM,防止其被用于传播虚假信息、煽动仇恨言论等恶意行为,保障社会稳定。

📄 摘要(原文)

In this paper, we present a new form of backdoor attack against Large Language Models (LLMs): lingual-backdoor attacks. The key novelty of lingual-backdoor attacks is that the language itself serves as the trigger to hijack the infected LLMs to generate inflammatory speech. They enable the precise targeting of a specific language-speaking group, exacerbating racial discrimination by malicious entities. We first implement a baseline lingual-backdoor attack, which is carried out by poisoning a set of training data for specific downstream tasks through translation into the trigger language. However, this baseline attack suffers from poor task generalization and is impractical in real-world settings. To address this challenge, we design BadLingual, a novel task-agnostic lingual-backdoor, capable of triggering any downstream tasks within the chat LLMs, regardless of the specific questions of these tasks. We design a new approach using PPL-constrained Greedy Coordinate Gradient-based Search (PGCG) based adversarial training to expand the decision boundary of lingual-backdoor, thereby enhancing the generalization ability of lingual-backdoor across various tasks. We perform extensive experiments to validate the effectiveness of our proposed attacks. Specifically, the baseline attack achieves an ASR of over 90% on the specified tasks. However, its ASR reaches only 37.61% across six tasks in the task-agnostic scenario. In contrast, BadLingual brings up to 37.35% improvement over the baseline. Our study sheds light on a new perspective of vulnerabilities in LLMs with multilingual capabilities and is expected to promote future research on the potential defenses to enhance the LLMs' robustness