When Emotion Becomes Trigger: Emotion-style dynamic Backdoor Attack Parasitising Large Language Models

📄 arXiv: 2605.11612v1 📥 PDF

作者: Ziyu Liu, Tao Li, Tianjie Ni, Xiaolong Lan, Wengang Ma, Tao Yang, Guohua Wang, Junjiang He

分类: cs.CL, cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出Paraesthesia,一种基于情感风格的动态后门攻击方法,寄生于大型语言模型。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门攻击 大型语言模型 情感风格 动态触发器 风格迁移

📋 核心要点

  1. 现有后门攻击主要在token级别操作,缺乏深层语义操纵,隐蔽性不足,且依赖静态触发器易被检测。
  2. Paraesthesia将情感因素作为动态后门触发器,通过情感风格的量化和重写,实现隐蔽且高效的攻击。
  3. 实验表明,Paraesthesia在指令跟随生成和分类任务上均实现了约99%的攻击成功率,同时保持了模型效用。

📝 摘要(中文)

后门漏洞广泛存在于大型语言模型(LLM)的微调过程中。现有后门投毒方法主要在token级别操作,缺乏更深层次的语义操纵,这限制了隐蔽性。此外,先前的攻击依赖于单一的固定触发器来诱导有害输出。这种静态触发器容易被检测,并且干净的微调可以削弱触发器-目标关联。通过因果验证,我们观察到情感并非直接与单个词语相关联,而是通过语调作为一种整体风格因素发挥作用。在LLM的表征空间中,情感可以与语义解耦,形成与原始中性文本不同的簇。因此,我们将情感因素作为后门触发器,提出了一种寄生情感风格动态后门攻击方法,Paraesthesia。通过将带有情感触发器的样本混合到干净数据中,然后微调模型,该模型能够在推理阶段遇到情感输入时生成预定义的攻击响应。Paraesthesia包括情感风格的量化和重写。我们在指令跟随生成和分类任务上评估了我们方法的有效性。实验结果表明,Paraesthesia在两种任务类型和四种不同模型上实现了约99%的攻击成功率,同时保持了模型的干净效用。

🔬 方法详解

问题定义:现有的大型语言模型后门攻击方法主要集中在token级别,通过在输入中插入特定的token序列(即触发器)来诱导模型产生预设的恶意输出。这些方法的痛点在于:1) 隐蔽性差,静态的token触发器容易被检测和防御;2) 鲁棒性不足,简单的微调即可削弱触发器与目标输出之间的关联;3) 缺乏语义层面的操纵,难以实现更复杂的攻击行为。

核心思路:Paraesthesia的核心思路是将情感风格作为后门触发器。研究者观察到情感并非直接与单个词语相关联,而是通过语调作为一种整体风格因素发挥作用。通过将情感与语义解耦,可以在不改变文本语义的情况下,植入后门。这种基于情感的触发器更难被察觉,且具有更强的鲁棒性。

技术框架:Paraesthesia的整体框架包含两个主要阶段:1) 情感风格的量化:使用情感分析工具或预训练模型来量化文本的情感强度和类型。2) 情感风格的重写:利用风格迁移技术,将量化后的情感风格注入到干净的训练数据中,生成带有情感触发器的样本。然后,使用这些混合了情感触发器的样本对大型语言模型进行微调,使其在遇到特定情感风格的输入时,产生预设的攻击响应。

关键创新:Paraesthesia的关键创新在于:1) 提出了情感风格作为后门触发器的概念,这是一种更隐蔽、更鲁棒的攻击方式。2) 将情感与语义解耦,实现了在不改变文本语义的情况下植入后门。3) 采用了动态触发器,即触发器并非固定的token序列,而是情感风格,这使得攻击更难被检测和防御。

关键设计:Paraesthesia的关键设计包括:1) 情感量化方法:可以使用现有的情感分析工具包(如VADER、TextBlob)或预训练的情感分类模型(如BERT、RoBERTa)来量化文本的情感强度和类型。2) 风格迁移技术:可以使用基于GAN的风格迁移模型或基于Transformer的风格迁移模型,将量化后的情感风格注入到干净的训练数据中。3) 损失函数:可以使用交叉熵损失函数来训练模型,使其在遇到特定情感风格的输入时,产生预设的攻击响应。同时,为了保持模型的干净效用,可以添加正则化项,限制模型对情感触发器的过度依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Paraesthesia在指令跟随生成和分类任务上均取得了显著的攻击效果。在四种不同的模型上,Paraesthesia实现了约99%的攻击成功率,同时保持了模型的干净效用。这表明Paraesthesia是一种高效且隐蔽的后门攻击方法,对大型语言模型的安全性构成了严重威胁。

🎯 应用场景

Paraesthesia可用于评估和增强大型语言模型的安全性,尤其是在涉及情感交互的场景中,如情感聊天机器人、心理健康咨询等。该研究有助于开发更有效的后门防御机制,防止恶意攻击者利用情感因素操纵LLM,保障用户安全和模型可靠性。未来可扩展到其他风格因素,如幽默、讽刺等,构建更全面的防御体系。

📄 摘要(原文)

Backdoor vulnerabilities widely exist in the fine-tuning of large language models(LLMs). Most backdoor poisoning methods operate mainly at the token level and lack deeper semantic manipulation, which limits stealthiness. In addition, Prior attacks rely on a single fixed trigger to induce harmful outputs. Such static triggers are easy to detect, and clean fine-tuning can weaken the trigger-target association. Through causal validation, we observe that emotion is not directly linked to individual words, but functions as an overall stylistic factor through tone. In the representation space of LLM, emotion can be decoupled from semantics, forming distinct cluster from the original neutral text. Therefore, we consider the emotional factor as the backdoor trigger to propose a pparasitic emotion-style dynamic backdoor attack, Paraesthesia. By mixing samples with the emotional trigger into clean data and then fine-tuning the model, the model is able to generate the predefined attack response when encountering emotional inputs during the inference stage. Paraesthesia includes two the quantification and rewriting of emotional styles. We evaluate the effectiveness of our method on instruction-following generation and classification tasks. The experimental results show that Paraesthesia achieves an attack success rate of around 99\% across both task types and four different models, while maintaining the clean utility of the models.