Hidden State Poisoning Attacks against Mamba-based Language Models

📄 arXiv: 2601.01972v1 📥 PDF

作者: Alexandre Le Mercier, Chris Develder, Thomas Demeester

分类: cs.CL

发布日期: 2026-01-05

备注: 17 pages, 4 figures. Submitted to ACL 2026


💡 一句话要点

针对Mamba语言模型的隐藏状态投毒攻击研究

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 Mamba模型 对抗攻击 隐藏状态投毒 语言模型安全

📋 核心要点

  1. Transformer计算复杂度高,Mamba等SSM模型作为替代方案,但其对抗鲁棒性研究不足。
  2. 论文提出隐藏状态投毒攻击(HiSPA),通过特定输入短语篡改Mamba模型的隐藏状态,造成信息损失。
  3. 实验表明,HiSPA能有效攻击Mamba模型,使其在信息检索和提示注入任务上性能显著下降,而Transformer模型不受影响。

📝 摘要(中文)

本文研究了基于状态空间模型(SSM)的Mamba语言模型的一种新型对抗攻击,称为隐藏状态投毒攻击(HiSPA)。Mamba模型作为Transformer的线性时间复杂度替代方案,其对抗鲁棒性尚未得到充分探索。HiSPA通过特定的短语输入,不可逆地覆盖模型隐藏状态中的信息,导致模型出现“部分失忆”现象。论文提出的RoBench25基准测试用于评估模型在HiSPA攻击下的信息检索能力,结果表明SSM模型对此类攻击非常脆弱。即使是Jamba系列中最新的52B混合SSM-Transformer模型,在优化的HiSPA触发器下也会在RoBench25上崩溃,而纯Transformer模型则不会。此外,HiSPA触发器还会显著削弱Jamba模型在Open-Prompt-Injections基准测试上的性能,而纯Transformer模型则不受影响。最后,论文的解释性研究揭示了Mamba隐藏层在HiSPA期间的模式,这些模式可用于构建HiSPA缓解系统。代码和数据已开源。

🔬 方法详解

问题定义:现有Transformer模型计算复杂度高,而Mamba等状态空间模型(SSM)提供了更高效的替代方案。然而,Mamba模型的对抗鲁棒性,特别是针对特定类型的攻击,尚未得到充分研究。现有的对抗攻击方法主要集中在输入层面的扰动,忽略了模型内部状态的脆弱性。因此,需要研究针对Mamba模型内部状态的攻击方法,并评估其潜在的影响。

核心思路:论文的核心思路是利用精心设计的输入短语,对Mamba模型的隐藏状态进行“投毒”,即不可逆地覆盖或篡改隐藏状态中的信息。这种攻击旨在使模型在后续处理中无法正确检索或利用先前的信息,从而导致性能下降。通过控制隐藏状态,可以有效地破坏模型的记忆能力,而无需对输入进行明显的扰动。

技术框架:该研究主要包含以下几个阶段:1) 设计和优化HiSPA触发器:利用优化算法生成能够有效篡改Mamba模型隐藏状态的特定短语。2) 构建RoBench25基准测试:用于评估模型在HiSPA攻击下的信息检索能力。3) 在RoBench25和Open-Prompt-Injections基准测试上评估Mamba模型和Transformer模型的性能。4) 对Mamba模型的隐藏层进行解释性研究,分析HiSPA攻击期间隐藏状态的变化模式。

关键创新:该研究的关键创新在于提出了隐藏状态投毒攻击(HiSPA)这一新型攻击方法,它直接针对Mamba模型的内部状态,而非仅仅在输入层面进行扰动。这种攻击方式能够更有效地破坏模型的记忆能力,并且对Mamba模型的影响远大于Transformer模型。此外,论文还提出了RoBench25基准测试,用于评估模型在HiSPA攻击下的信息检索能力。

关键设计:HiSPA触发器的设计采用了优化算法,目标是找到能够最大程度地改变Mamba模型隐藏状态的短语。RoBench25基准测试包含一系列信息检索任务,用于评估模型在受到HiSPA攻击后的信息检索准确率。实验中对比了不同大小的Mamba模型和Transformer模型,以及不同类型的HiSPA触发器。解释性研究则侧重于分析Mamba模型隐藏层在HiSPA攻击期间的激活模式,以识别潜在的防御机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiSPA攻击能够显著降低Mamba模型在RoBench25基准测试和Open-Prompt-Injections基准测试上的性能。例如,Jamba系列中最新的52B混合SSM-Transformer模型在优化的HiSPA触发器下,在RoBench25上完全崩溃,而纯Transformer模型则不受影响。这表明Mamba模型对隐藏状态投毒攻击的脆弱性远高于Transformer模型。

🎯 应用场景

该研究成果可应用于评估和提高基于状态空间模型的语言模型的安全性。通过了解HiSPA攻击的原理和影响,可以开发相应的防御机制,例如隐藏状态的监控和修复,从而增强模型的鲁棒性。此外,该研究还可以促进对SSM模型内部机制的理解,为未来的模型设计提供指导。

📄 摘要(原文)

State space models (SSMs) like Mamba offer efficient alternatives to Transformer-based language models, with linear time complexity. Yet, their adversarial robustness remains critically unexplored. This paper studies the phenomenon whereby specific short input phrases induce a partial amnesia effect in such models, by irreversibly overwriting information in their hidden states, referred to as a Hidden State Poisoning Attack (HiSPA). Our benchmark RoBench25 allows evaluating a model's information retrieval capabilities when subject to HiSPAs, and confirms the vulnerability of SSMs against such attacks. Even a recent 52B hybrid SSM-Transformer model from the Jamba family collapses on RoBench25 under optimized HiSPA triggers, whereas pure Transformers do not. We also observe that HiSPA triggers significantly weaken the Jamba model on the popular Open-Prompt-Injections benchmark, unlike pure Transformers. Finally, our interpretability study reveals patterns in Mamba's hidden layers during HiSPAs that could be used to build a HiSPA mitigation system. The full code and data to reproduce the experiments can be found at https://anonymous.4open.science/r/hispa_anonymous-5DB0.