Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models
作者: Liang Lin, Miao Yu, Moayad Aloqaily, Zhenhong Zhou, Kun Wang, Linsey Pang, Prakhar Mehrotra, Qingsong Wen
分类: cs.CL
发布日期: 2025-10-11
💡 一句话要点
提出Backdoor Collapse框架以解决语言模型中的后门攻击问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 语言模型 安全防护 聚合表示 恢复微调
📋 核心要点
- 现有防御方法对后门攻击的假设不切实际,无法有效应对未知威胁。
- 提出的Backdoor Collapse框架通过注入已知后门来聚合后门表示,进而恢复良性输出。
- 实验结果显示,该方法在多个基准上将攻击成功率降低至4.41%,并保持了模型的清洁准确性。
📝 摘要(中文)
后门攻击对大型语言模型(LLMs)构成了重大威胁,通常通过公共检查点嵌入。然而,现有防御方法依赖于对触发器设置的不切实际假设。为了解决这一挑战,本文提出了Backdoor Collapse框架,该框架无需先前的触发器设置知识。该方法基于一个关键观察:当故意将已知后门注入到已被攻陷的模型中时,现有的未知后门和新注入的后门在表示空间中聚合。通过两阶段过程,首先聚合后门表示,然后进行恢复微调以恢复良性输出。大量实验表明,该方法在多个基准测试中将平均攻击成功率降低至4.41%,并且在保持清洁准确性和实用性方面与原始模型的差异不超过0.5%。
🔬 方法详解
问题定义:本文旨在解决大型语言模型中的后门攻击问题,现有方法往往假设攻击者的触发器设置已知,无法应对未知的后门威胁。
核心思路:论文提出的Backdoor Collapse框架通过注入已知后门来聚合后门表示,利用这一聚合特性进行恢复微调,从而消除未知后门的影响。
技术框架:该框架分为两个主要阶段:第一阶段,通过注入已知触发器来聚合后门表示;第二阶段,进行恢复微调,以确保模型输出的良性。
关键创新:最重要的创新在于无需对触发器设置的先验知识,通过已知后门的注入实现对未知后门的有效防御,这一方法在本质上区别于传统的防御策略。
关键设计:在设计中,关键参数包括已知后门的选择和注入策略,损失函数则侧重于恢复良性输出,同时确保聚合后的表示能够有效抵消未知后门的影响。该方法在多个模型架构上进行了验证,确保其通用性和有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Backdoor Collapse框架在多个基准测试中将平均攻击成功率降低至4.41%,相比现有基线提升幅度达28.1%至69.3%。此外,模型的清洁准确性和实用性保持在原始模型的0.5%以内,证明了其有效性和鲁棒性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能对话系统和任何依赖大型语言模型的应用。通过有效防御后门攻击,能够提升模型的安全性和可靠性,确保在实际部署中的安全性和用户信任。未来,该方法可能会推动更广泛的安全防护技术的发展。
📄 摘要(原文)
Backdoor attacks are a significant threat to large language models (LLMs), often embedded via public checkpoints, yet existing defenses rely on impractical assumptions about trigger settings. To address this challenge, we propose \ourmethod, a defense framework that requires no prior knowledge of trigger settings. \ourmethod is based on the key observation that when deliberately injecting known backdoors into an already-compromised model, both existing unknown and newly injected backdoors aggregate in the representation space. \ourmethod leverages this through a two-stage process: \textbf{first}, aggregating backdoor representations by injecting known triggers, and \textbf{then}, performing recovery fine-tuning to restore benign outputs. Extensive experiments across multiple LLM architectures demonstrate that: (I) \ourmethod reduces the average Attack Success Rate to 4.41\% across multiple benchmarks, outperforming existing baselines by 28.1\%$\sim$69.3\%$\uparrow$. (II) Clean accuracy and utility are preserved within 0.5\% of the original model, ensuring negligible impact on legitimate tasks. (III) The defense generalizes across different types of backdoors, confirming its robustness in practical deployment scenarios.