Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs
作者: Md Abdullah Al Mamun, Ihsen Alouani, Nael Abu-Ghazaleh
分类: cs.LG, cs.AI, cs.CL, cs.DC
发布日期: 2025-08-28
💡 一句话要点
提出Subversive Alignment Injection,利用对齐机制向LLM注入偏见和实施定向审查。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 对齐机制 投毒攻击 偏见注入 定向审查
📋 核心要点
- 现有LLM对齐机制旨在避免有害回复,但存在被恶意利用以注入偏见或进行审查的风险。
- 论文提出Subversive Alignment Injection (SAI) 攻击,通过投毒数据触发LLM对特定主题的拒绝响应,从而植入偏见。
- 实验表明,SAI攻击能有效绕过现有投毒防御机制,并在医疗、招聘等下游应用中造成显著的偏见。
📝 摘要(中文)
大型语言模型(LLM)通过训练来拒绝回答有害或不安全的提示,从而满足伦理标准和安全要求。本文展示了攻击者如何利用LLM的对齐机制来植入偏见,或强制执行定向审查,而不会降低模型对不相关主题的响应能力。具体来说,我们提出了一种名为Subversive Alignment Injection(SAI)的投毒攻击,该攻击利用对齐机制来触发对攻击者预定义的特定主题或查询的拒绝。虽然通过过度对齐可以诱导拒绝可能并不令人惊讶,但我们展示了如何利用这种拒绝将偏见注入模型。令人惊讶的是,SAI 避开了最先进的投毒防御措施,包括 LLM 状态取证,以及旨在检测 FL 设置中投毒的稳健聚合技术。我们通过展示其对 LLM 驱动的应用程序管道的端到端影响,证明了这种攻击的实际危险。对于像 ChatDoctor 这样的基于聊天的应用程序,通过 1% 的数据投毒,系统拒绝回答针对特定种族类别的医疗保健问题,导致高度偏见($ΔDP$ 为 23%)。我们还表明,偏见可以在其他 NLP 任务中诱导:对于一个被对齐以拒绝总结来自选定大学的简历的简历选择管道,导致选择中出现高度偏见($ΔDP$ 为 27%)。在其他 9 个基于聊天的下游应用程序中,甚至产生了更高的偏见($ΔDP$~38%)。
🔬 方法详解
问题定义:论文旨在解决LLM对齐机制被恶意利用,从而在模型中注入偏见或进行定向审查的问题。现有方法主要关注于防止模型生成有害内容,但忽略了对齐机制本身可能被攻击者利用的风险。攻击者可以通过精心设计的投毒数据,诱导模型对特定主题或人群产生拒绝响应,从而实现偏见注入或审查的目的。
核心思路:论文的核心思路是利用LLM的对齐机制,通过投毒数据训练模型,使其在面对特定主题或查询时,错误地将其识别为有害或不安全,从而触发拒绝响应。这种拒绝响应实际上是将攻击者预设的偏见或审查策略嵌入到模型中。
技术框架:SAI攻击的整体流程包括以下几个阶段:1) 选择目标主题或人群,确定要注入的偏见或审查策略。2) 设计投毒数据,这些数据旨在诱导模型将目标主题或人群与有害或不安全的内容关联起来。3) 使用投毒数据训练LLM,使其在面对目标主题或人群时,产生拒绝响应。4) 评估攻击效果,衡量模型在下游应用中产生的偏见程度。
关键创新:SAI攻击的关键创新在于其利用了LLM的对齐机制来实现偏见注入或审查。与传统的投毒攻击不同,SAI攻击并不直接修改模型的参数,而是通过操纵模型的拒绝行为来实现攻击目的。此外,SAI攻击能够绕过现有的投毒防御机制,因为它并没有改变模型的整体性能,而是仅仅影响了模型对特定主题或人群的响应。
关键设计:SAI攻击的关键设计在于投毒数据的选择和生成。投毒数据需要足够巧妙,才能诱导模型将目标主题或人群与有害或不安全的内容关联起来,同时又不能过于明显,以免被防御机制检测到。论文中可能使用了特定的prompt工程技巧或数据增强方法来生成有效的投毒数据。具体的损失函数可能包括对拒绝响应的惩罚项,以鼓励模型对目标主题或人群产生拒绝响应。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅需1%的投毒数据,SAI攻击就能在ChatDoctor等应用中造成显著的种族偏见($ΔDP$ 达23%)。在简历筛选场景中,针对特定大学的审查导致选择偏见高达27%($ΔDP$)。在其他9个下游应用中,偏见程度甚至高达38%($ΔDP$)。更重要的是,SAI攻击能够有效绕过现有的投毒防御机制,凸显了该攻击的隐蔽性和危害性。
🎯 应用场景
该研究揭示了LLM在医疗、招聘等领域的潜在偏见风险,强调了在部署LLM驱动的应用时,需要充分考虑对齐机制可能被恶意利用的情况。研究成果可用于开发更鲁棒的防御机制,以防止LLM被用于传播偏见或进行不公正的审查,从而促进AI技术的公平性和安全性。
📄 摘要(原文)
Large Language Models (LLMs) are aligned to meet ethical standards and safety requirements by training them to refuse answering harmful or unsafe prompts. In this paper, we demonstrate how adversaries can exploit LLMs' alignment to implant bias, or enforce targeted censorship without degrading the model's responsiveness to unrelated topics. Specifically, we propose Subversive Alignment Injection (SAI), a poisoning attack that leverages the alignment mechanism to trigger refusal on specific topics or queries predefined by the adversary. Although it is perhaps not surprising that refusal can be induced through overalignment, we demonstrate how this refusal can be exploited to inject bias into the model. Surprisingly, SAI evades state-of-the-art poisoning defenses including LLM state forensics, as well as robust aggregation techniques that are designed to detect poisoning in FL settings. We demonstrate the practical dangers of this attack by illustrating its end-to-end impacts on LLM-powered application pipelines. For chat based applications such as ChatDoctor, with 1% data poisoning, the system refuses to answer healthcare questions to targeted racial category leading to high bias ($ΔDP$ of 23%). We also show that bias can be induced in other NLP tasks: for a resume selection pipeline aligned to refuse to summarize CVs from a selected university, high bias in selection ($ΔDP$ of 27%) results. Even higher bias ($ΔDP$~38%) results on 9 other chat based downstream applications.