The Implicit Bias of Structured State Space Models Can Be Poisoned With Clean Labels

📄 arXiv: 2410.10473v5 📥 PDF

作者: Yonatan Slutzky, Yotam Alexander, Noam Razin, Nadav Cohen

分类: cs.LG, stat.ML

发布日期: 2024-10-14 (更新: 2025-12-14)

备注: Accepted to NeurIPS 2025


💡 一句话要点

揭示结构化状态空间模型易受干净标签投毒攻击的脆弱性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 结构化状态空间模型 隐式偏差 干净标签投毒 对抗性机器学习 泛化能力

📋 核心要点

  1. 现有研究认为结构化状态空间模型(SSM)具有良好的隐式偏差,能够泛化到未见数据。
  2. 该论文证明,特定干净标签样本的引入会扭曲SSM的隐式偏差,导致泛化能力下降。
  3. 实验验证了SSM在干净标签投毒攻击下的脆弱性,强调了防御此类攻击的重要性。

📝 摘要(中文)

神经网络的泛化能力得益于其隐式偏差,即梯度下降倾向于以一种能够泛化到未见数据的方式拟合训练数据。结构化状态空间模型(SSM)作为Transformer的一种高效替代方案,正日益受到欢迎。先前研究认为,SSM的隐式偏差使其能够在低维教师模型生成数据的场景中实现泛化。本文重新审视了这一场景,并正式确立了一个先前关于SSM隐式偏差的研究完全未检测到的现象。具体而言,我们证明,虽然隐式偏差在许多训练数据选择下都能导致泛化,但存在一些特殊的例子,它们被包含在训练集中会完全扭曲隐式偏差,导致泛化失败。即使这些特殊训练样本是由教师模型标记的,即具有干净的标签,这种失败也会发生!我们通过独立训练的SSM以及作为非线性神经网络一部分的SSM,在实验中证明了这一现象。在对抗性机器学习领域,使用干净标记的训练样本来破坏泛化被称为干净标签投毒。鉴于SSM的普及,我们认为,明确其对干净标签投毒的敏感性,并开发克服这种敏感性的方法,是值得追求的关键研究方向。

🔬 方法详解

问题定义:论文研究的问题是结构化状态空间模型(SSM)在面对干净标签投毒攻击时的脆弱性。现有研究认为SSM具有良好的隐式偏差,能够实现泛化,但忽略了特定样本可能对隐式偏差产生负面影响的情况。这种忽略使得SSM容易受到攻击,即使攻击样本具有正确的标签,也能显著降低模型的泛化性能。

核心思路:论文的核心思路是证明,虽然SSM在通常情况下能够通过隐式偏差实现泛化,但存在一些精心设计的、带有正确标签的样本,这些样本能够扭曲SSM的隐式偏差,从而导致泛化失败。这种现象表明,SSM的隐式偏差并非总是良性的,而是可能被恶意利用。

技术框架:论文首先在理论上证明了存在能够扭曲SSM隐式偏差的干净标签样本。然后,通过实验验证了这一理论结果。实验中,SSM被独立训练,以及作为非线性神经网络的一部分进行训练。实验数据由低维教师模型生成,并包含精心设计的干净标签投毒样本。实验结果表明,在存在投毒样本的情况下,SSM的泛化性能显著下降。

关键创新:论文最重要的技术创新点在于揭示了SSM的隐式偏差并非总是良性的,而是可能被干净标签投毒样本所扭曲。这一发现挑战了先前关于SSM隐式偏差的理解,并为研究SSM的安全性提供了新的视角。与现有方法不同,该论文关注的是干净标签投毒攻击,这种攻击方式更隐蔽,更难防御。

关键设计:论文的关键设计包括:1) 精心设计的干净标签投毒样本,这些样本能够最大程度地扭曲SSM的隐式偏差。2) 使用低维教师模型生成数据,以便更好地控制数据分布和评估泛化性能。3) 在独立训练的SSM和作为非线性神经网络一部分的SSM上进行实验,以验证结果的普遍性。具体的参数设置和网络结构细节在论文中未详细说明,属于实验的具体配置,但核心在于投毒样本的设计。

📊 实验亮点

论文通过实验证明,在训练数据中加入精心设计的干净标签投毒样本,会导致SSM的泛化性能显著下降。实验结果表明,即使投毒样本的比例很小,也能对SSM的性能产生严重影响。具体性能数据和提升幅度在摘要和方法部分未明确给出,需要在论文正文中查找。

🎯 应用场景

该研究成果对提升结构化状态空间模型(SSM)的安全性具有重要意义。可应用于对安全性要求较高的领域,如自动驾驶、医疗诊断等,通过开发防御干净标签投毒攻击的方法,提高SSM在这些领域的可靠性和鲁棒性。未来的研究方向包括设计更有效的防御机制,以及探索其他类型的对抗性攻击。

📄 摘要(原文)

Neural networks are powered by an implicit bias: a tendency of gradient descent to fit training data in a way that generalizes to unseen data. A recent class of neural network models gaining increasing popularity is structured state space models (SSMs), regarded as an efficient alternative to transformers. Prior work argued that the implicit bias of SSMs leads to generalization in a setting where data is generated by a low dimensional teacher. In this paper, we revisit the latter setting, and formally establish a phenomenon entirely undetected by prior work on the implicit bias of SSMs. Namely, we prove that while implicit bias leads to generalization under many choices of training data, there exist special examples whose inclusion in training completely distorts the implicit bias, to a point where generalization fails. This failure occurs despite the special training examples being labeled by the teacher, i.e. having clean labels! We empirically demonstrate the phenomenon, with SSMs trained independently and as part of non-linear neural networks. In the area of adversarial machine learning, disrupting generalization with cleanly labeled training examples is known as clean-label poisoning. Given the proliferation of SSMs, we believe that delineating their susceptibility to clean-label poisoning, and developing methods for overcoming this susceptibility, are critical research directions to pursue.