Backdooring Bias in Large Language Models

作者: Anudeep Das, Prach Chantasantitam, Gurjot Singh, Lipeng He, Mariia Ponomarenko, Florian Kerschbaum

分类: cs.CR, cs.AI

发布日期: 2026-02-13

💡 一句话要点

研究表明，白盒攻击下，语义触发后门更易诱导大语言模型的负面偏见。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后门攻击 白盒攻击 语义触发 偏见诱导 对抗防御 数据中毒

📋 核心要点

现有后门攻击研究主要集中于黑盒场景，忽略了模型构建者作为攻击者的白盒威胁模型，以及语义触发后门攻击的潜力。
该研究在白盒环境下，通过高中毒率和数据增强，深入分析了语法和语义触发后门攻击对LLM偏见诱导的影响。
实验表明，语义触发后门更易诱导负面偏见，且现有防御方法在缓解后门的同时，会显著降低模型效用或带来高计算成本。

📝 摘要（中文）

大型语言模型（LLM）越来越多地部署在对特定主题产生偏见可能造成重大后果的场景中，而后门攻击可用于生成此类模型。以往关于后门攻击的研究主要集中在黑盒威胁模型上，攻击者针对的是模型构建者的LLM。然而，在偏见操纵的背景下，模型构建者本身可能就是攻击者，这就需要一个白盒威胁模型，其中攻击者毒化和操纵中毒数据的能力大大增强。此外，尽管语义触发后门的研究越来越多，但大多数研究仅限于语法触发攻击。鉴于这些局限性，我们进行了一项分析，包括使用更高的中毒率和更大的数据增强的1000多次评估，以更好地了解白盒环境中语法和语义触发后门攻击的潜力。此外，我们研究了两种具有代表性的防御范式，即模型内在和模型外在的后门移除，是否能够缓解这些攻击。我们的分析揭示了许多新的发现。我们发现，虽然语法和语义触发的攻击都可以有效地诱导目标行为，并在很大程度上保持效用，但语义触发的攻击通常在诱导负面偏见方面更有效，而两种后门类型都在引起正面偏见方面存在困难。此外，虽然两种防御类型都能够缓解这些后门，但它们要么导致效用大幅下降，要么需要很高的计算开销。

🔬 方法详解

问题定义：该论文旨在研究在白盒攻击场景下，如何利用后门攻击操纵大型语言模型（LLM）的偏见。现有研究主要集中在黑盒攻击，忽略了模型构建者本身作为攻击者的可能性，以及语义触发后门攻击的潜力。此外，现有的防御方法往往会牺牲模型的效用或带来巨大的计算开销。

核心思路：核心思路是探索在白盒环境下，通过精心设计的语法和语义触发器，诱导LLM产生特定偏见。通过提高中毒率和数据增强，更全面地评估后门攻击的有效性，并分析现有防御方法的局限性。

技术框架：该研究主要包含以下几个阶段：1）数据中毒：使用语法和语义触发器对训练数据进行中毒。2）模型训练：使用中毒数据训练LLM。3）后门激活：使用触发器测试后门是否成功激活，并诱导目标偏见。4）防御评估：评估模型内在和模型外在的防御方法对后门攻击的缓解效果。

关键创新：该研究的关键创新在于：1）关注白盒攻击场景，模型构建者本身作为攻击者。2）深入研究语义触发后门攻击，发现其在诱导负面偏见方面更有效。3）全面评估现有防御方法的有效性和局限性，揭示其在缓解后门的同时可能带来的负面影响。

关键设计：在数据中毒阶段，设计了多种语法和语义触发器，例如，在语法触发器中，使用特定的字符序列；在语义触发器中，使用与目标偏见相关的特定短语或句子。通过调整中毒率和数据增强策略，控制后门攻击的强度。在防御评估阶段，采用了模型内在（如对抗训练）和模型外在（如后门检测）的防御方法，并评估其对模型效用和计算开销的影响。

📊 实验亮点

实验结果表明，语义触发的后门攻击在诱导负面偏见方面比语法触发的攻击更有效。同时，现有的模型内在和模型外在的防御方法虽然可以缓解后门攻击，但会导致模型效用大幅下降或需要极高的计算开销。例如，对抗训练可以降低后门攻击的成功率，但同时会显著降低模型在正常任务上的准确率。

🎯 应用场景

该研究成果可应用于评估和增强大型语言模型的安全性，尤其是在涉及敏感信息或可能产生偏见的场景中。例如，可以用于评估招聘、信贷评估等领域的LLM是否存在后门偏见，并开发更有效的防御机制，确保模型的公平性和可靠性。该研究也为未来开发更安全的LLM训练方法提供了指导。

📄 摘要（原文）

Large language models (LLMs) are increasingly deployed in settings where inducing a bias toward a certain topic can have significant consequences, and backdoor attacks can be used to produce such models. Prior work on backdoor attacks has largely focused on a black-box threat model, with an adversary targeting the model builder's LLM. However, in the bias manipulation setting, the model builder themselves could be the adversary, warranting a white-box threat model where the attacker's ability to poison, and manipulate the poisoned data is substantially increased. Furthermore, despite growing research in semantically-triggered backdoors, most studies have limited themselves to syntactically-triggered attacks. Motivated by these limitations, we conduct an analysis consisting of over 1000 evaluations using higher poisoning ratios and greater data augmentation to gain a better understanding of the potential of syntactically- and semantically-triggered backdoor attacks in a white-box setting. In addition, we study whether two representative defense paradigms, model-intrinsic and model-extrinsic backdoor removal, are able to mitigate these attacks. Our analysis reveals numerous new findings. We discover that while both syntactically- and semantically-triggered attacks can effectively induce the target behaviour, and largely preserve utility, semantically-triggered attacks are generally more effective in inducing negative biases, while both backdoor types struggle with causing positive biases. Furthermore, while both defense types are able to mitigate these backdoors, they either result in a substantial drop in utility, or require high computational overhead.

Backdooring Bias in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理