Defense Against Syntactic Textual Backdoor Attacks with Token Substitution
作者: Xinglin Li, Xianwen He, Yao Li, Minhao Cheng
分类: cs.CL
发布日期: 2024-07-04
💡 一句话要点
提出基于Token替换的在线防御算法,有效对抗文本后门攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本后门攻击 防御算法 Token替换 句法结构 大型语言模型
📋 核心要点
- 现有文本后门防御方法主要关注特殊token触发器,忽略了基于语法的触发器,存在防御盲区。
- 该论文提出一种在线防御算法,通过替换语义词汇并保留句法结构,检测触发器是否存在。
- 实验结果表明,该算法能有效防御基于语法和特殊token的后门攻击,提升模型安全性。
📝 摘要(中文)
文本后门攻击对大型语言模型(LLM)构成严重的安全风险。它在训练阶段将精心选择的触发器嵌入到受害者模型中,使模型错误地将包含相同触发器的输入预测为特定类别。先前的后门防御方法主要针对基于特殊token的触发器,而对基于语法的触发器处理不足。为了填补这一空白,本文提出了一种新颖的在线防御算法,该算法可以有效地对抗基于语法的以及基于特殊token的后门攻击。该算法用完全不同的词替换句子中语义上有意义的词,但保留句法模板或特殊token,然后比较替换前后的预测标签,以确定句子是否包含触发器。实验结果证实了该算法针对这两种类型触发器的性能,为模型完整性提供了全面的防御策略。
🔬 方法详解
问题定义:文本后门攻击通过在训练数据中注入包含特定触发器的样本,使得模型在遇到这些触发器时会错误地预测为目标类别。现有的防御方法主要集中在检测和移除特殊token触发器,而忽略了基于句法结构的触发器,这使得模型容易受到更隐蔽的攻击。
核心思路:该论文的核心思路是通过替换句子中语义相关的词汇,同时保持句子的句法结构不变,然后比较替换前后模型预测结果的变化。如果替换后的预测结果发生显著变化,则表明句子中可能存在触发器。这种方法能够同时检测基于特殊token和基于句法结构的触发器。
技术框架:该算法是一个在线防御框架,主要包含以下步骤:1) 输入待检测的句子;2) 选择句子中具有语义信息的词汇进行替换,替换为语义完全不同的词汇,但保持句子的句法结构不变;3) 分别使用原始句子和替换后的句子输入到模型中进行预测;4) 比较两次预测结果,如果预测结果差异超过预设阈值,则判定句子包含触发器。
关键创新:该论文的关键创新在于提出了一种基于token替换的在线防御算法,该算法能够同时防御基于特殊token和基于句法结构的文本后门攻击。与以往方法相比,该方法不需要预先知道触发器的具体形式,具有更强的通用性和鲁棒性。
关键设计:算法的关键设计包括:1) 如何选择需要替换的词汇,通常选择名词、动词、形容词等具有语义信息的词汇;2) 如何保证替换后的句子仍然保持原有的句法结构,可以使用句法分析工具进行辅助;3) 如何设定预测结果差异的阈值,需要根据具体的模型和数据集进行调整;4) 替换词的选择策略,需要保证替换后的词汇在语义上与原词汇完全不同,以最大程度地干扰触发器的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该算法能够有效防御基于特殊token和基于句法结构的文本后门攻击。具体而言,该算法在保持模型正常性能的同时,能够显著降低后门攻击的成功率,相比于现有的防御方法,具有更强的防御能力和更好的泛化性能。具体的性能数据(例如攻击成功率降低的百分比)在原文中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于各种自然语言处理任务中,例如情感分析、文本分类、机器翻译等,以提高模型在对抗恶意攻击时的鲁棒性和安全性。该方法能够有效防御文本后门攻击,保障LLM的可靠性,降低模型被恶意利用的风险,具有重要的实际应用价值和潜在的社会影响。
📄 摘要(原文)
Textual backdoor attacks present a substantial security risk to Large Language Models (LLM). It embeds carefully chosen triggers into a victim model at the training stage, and makes the model erroneously predict inputs containing the same triggers as a certain class. Prior backdoor defense methods primarily target special token-based triggers, leaving syntax-based triggers insufficiently addressed. To fill this gap, this paper proposes a novel online defense algorithm that effectively counters syntax-based as well as special token-based backdoor attacks. The algorithm replaces semantically meaningful words in sentences with entirely different ones but preserves the syntactic templates or special tokens, and then compares the predicted labels before and after the substitution to determine whether a sentence contains triggers. Experimental results confirm the algorithm's performance against these two types of triggers, offering a comprehensive defense strategy for model integrity.