Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models

作者: Liang Lin, Miao Yu, Moayad Aloqaily, Zhenhong Zhou, Kun Wang, Linsey Pang, Prakhar Mehrotra, Qingsong Wen

分类: cs.CL

发布日期: 2025-10-11

💡 一句话要点

提出Backdoor Collapse框架以解决语言模型中的后门攻击问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 后门攻击 语言模型 安全防护 聚合表示 恢复微调

📋 核心要点

现有防御方法对后门攻击的假设不切实际，无法有效应对未知威胁。
提出的Backdoor Collapse框架通过注入已知后门来聚合后门表示，进而恢复良性输出。
实验结果显示，该方法在多个基准上将攻击成功率降低至4.41%，并保持了模型的清洁准确性。

📝 摘要（中文）

后门攻击对大型语言模型（LLMs）构成了重大威胁，通常通过公共检查点嵌入。然而，现有防御方法依赖于对触发器设置的不切实际假设。为了解决这一挑战，本文提出了Backdoor Collapse框架，该框架无需先前的触发器设置知识。该方法基于一个关键观察：当故意将已知后门注入到已被攻陷的模型中时，现有的未知后门和新注入的后门在表示空间中聚合。通过两阶段过程，首先聚合后门表示，然后进行恢复微调以恢复良性输出。大量实验表明，该方法在多个基准测试中将平均攻击成功率降低至4.41%，并且在保持清洁准确性和实用性方面与原始模型的差异不超过0.5%。

🔬 方法详解

问题定义：本文旨在解决大型语言模型中的后门攻击问题，现有方法往往假设攻击者的触发器设置已知，无法应对未知的后门威胁。

核心思路：论文提出的Backdoor Collapse框架通过注入已知后门来聚合后门表示，利用这一聚合特性进行恢复微调，从而消除未知后门的影响。

技术框架：该框架分为两个主要阶段：第一阶段，通过注入已知触发器来聚合后门表示；第二阶段，进行恢复微调，以确保模型输出的良性。

关键创新：最重要的创新在于无需对触发器设置的先验知识，通过已知后门的注入实现对未知后门的有效防御，这一方法在本质上区别于传统的防御策略。

关键设计：在设计中，关键参数包括已知后门的选择和注入策略，损失函数则侧重于恢复良性输出，同时确保聚合后的表示能够有效抵消未知后门的影响。该方法在多个模型架构上进行了验证，确保其通用性和有效性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，Backdoor Collapse框架在多个基准测试中将平均攻击成功率降低至4.41%，相比现有基线提升幅度达28.1%至69.3%。此外，模型的清洁准确性和实用性保持在原始模型的0.5%以内，证明了其有效性和鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能对话系统和任何依赖大型语言模型的应用。通过有效防御后门攻击，能够提升模型的安全性和可靠性，确保在实际部署中的安全性和用户信任。未来，该方法可能会推动更广泛的安全防护技术的发展。

📄 摘要（原文）

Backdoor attacks are a significant threat to large language models (LLMs), often embedded via public checkpoints, yet existing defenses rely on impractical assumptions about trigger settings. To address this challenge, we propose \ourmethod, a defense framework that requires no prior knowledge of trigger settings. \ourmethod is based on the key observation that when deliberately injecting known backdoors into an already-compromised model, both existing unknown and newly injected backdoors aggregate in the representation space. \ourmethod leverages this through a two-stage process: \textbf{first}, aggregating backdoor representations by injecting known triggers, and \textbf{then}, performing recovery fine-tuning to restore benign outputs. Extensive experiments across multiple LLM architectures demonstrate that: (I) \ourmethod reduces the average Attack Success Rate to 4.41\% across multiple benchmarks, outperforming existing baselines by 28.1\%$\sim$69.3\%$\uparrow$. (II) Clean accuracy and utility are preserved within 0.5\% of the original model, ensuring negligible impact on legitimate tasks. (III) The defense generalizes across different types of backdoors, confirming its robustness in practical deployment scenarios.

Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理