SpectralGuard: Detecting Memory Collapse Attacks in State Space Models

📄 arXiv: 2603.12414v1 📥 PDF

作者: Davi Bonetto

分类: cs.LG, cs.CR

发布日期: 2026-03-12

备注: 24 pages, 10 figures. Code, dataset, and demo: https://github.com/DaviBonetto/spectralguard


💡 一句话要点

提出SpectralGuard,用于检测状态空间模型中的内存崩溃攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 状态空间模型 内存崩溃攻击 谱半径 安全防御 实时监控 对抗性攻击 循环神经网络

📋 核心要点

  1. 状态空间模型存在内存崩溃的安全漏洞,攻击者可降低谱半径,缩短模型记忆范围。
  2. 提出SpectralGuard,通过实时监控模型各层的谱稳定性来检测内存崩溃攻击。
  3. SpectralGuard在多种攻击场景下表现出色,且延迟低,可作为循环模型的安全层。

📝 摘要(中文)

状态空间模型(SSM),如Mamba,通过输入相关的循环实现了线性时间序列处理,但这种机制引入了一个关键的安全漏洞。本文表明,离散化转移算子的谱半径rho(A-bar)控制着有效的记忆范围:当攻击者通过基于梯度的隐藏状态投毒将rho驱动到接近于零时,记忆会从数百万个token崩溃到仅仅几十个,从而在不触发输出层警报的情况下悄无声息地破坏推理能力。本文证明了一个规避存在定理,表明对于任何仅基于输出的防御,都存在可以同时诱导谱崩溃并逃避检测的对抗性输入。然后,本文引入了SpectralGuard,这是一个实时监控器,用于跟踪所有模型层中的谱稳定性。SpectralGuard在非自适应攻击者下的F1值为0.961,在最强的自适应设置下仍保持F1值为0.842,且每个token的延迟低于15毫秒。因果干预和跨架构转移到混合SSM-Attention系统证实,谱监控为循环基础模型提供了一个原则性的、可部署的安全层。

🔬 方法详解

问题定义:状态空间模型(SSM)虽然在序列处理上具有优势,但其输入依赖的循环机制使其容易受到内存崩溃攻击。攻击者可以通过构造恶意输入,降低模型内部状态转移矩阵的谱半径,从而显著缩短模型的有效记忆范围,导致模型推理能力下降。现有防御方法主要集中在输出层,难以有效检测此类攻击,因为攻击可以在不明显改变输出的情况下发生。

核心思路:本文的核心思路是利用谱半径作为衡量模型记忆能力的关键指标。通过实时监控模型各层的谱半径变化,可以及时发现攻击者试图降低模型记忆范围的行为。SpectralGuard通过检测谱半径的异常下降来识别潜在的内存崩溃攻击。

技术框架:SpectralGuard作为一个实时监控器,嵌入到SSM模型中。它主要包含以下几个阶段:1) 状态提取:从模型的各个层提取隐藏状态。2) 谱半径计算:基于提取的隐藏状态,计算每一层的状态转移矩阵的谱半径。3) 异常检测:将计算得到的谱半径与预定义的阈值进行比较,检测是否存在异常下降。4) 警报:如果检测到谱半径异常下降,则发出警报,提示可能存在内存崩溃攻击。

关键创新:本文的关键创新在于将谱半径作为检测内存崩溃攻击的指标,并提出了SpectralGuard这一实时监控框架。与传统的基于输出的防御方法不同,SpectralGuard直接监控模型内部状态,能够更早地发现攻击行为。此外,本文还证明了对于任何仅基于输出的防御,都存在可以同时诱导谱崩溃并逃避检测的对抗性输入,从而强调了内部状态监控的重要性。

关键设计:SpectralGuard的关键设计包括:1) 谱半径计算方法:论文可能采用了幂迭代法或其他高效的算法来计算谱半径。2) 阈值设定:需要根据模型的特性和应用场景,合理设定谱半径的阈值,以避免误报或漏报。3) 延迟优化:为了保证实时性,SpectralGuard需要尽可能降低计算谱半径的延迟。论文提到SpectralGuard的延迟低于15ms/token,这可能涉及到一些优化策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpectralGuard在检测内存崩溃攻击方面表现出色,在非自适应攻击者下的F1值为0.961,在最强的自适应设置下仍保持F1值为0.842,且每个token的延迟低于15毫秒。实验结果表明,SpectralGuard能够有效防御各种类型的内存崩溃攻击,并且具有较低的延迟,可以实时部署到实际应用中。此外,该研究还验证了SpectralGuard在混合SSM-Attention系统中的有效性。

🎯 应用场景

SpectralGuard可应用于各种基于状态空间模型的应用场景,如自然语言处理、语音识别、时间序列预测等。通过实时监控模型的谱稳定性,可以有效防御内存崩溃攻击,提高模型的安全性和可靠性。该研究对于提升循环神经网络在安全领域的应用具有重要价值,尤其是在对安全性要求较高的场景中。

📄 摘要(原文)

State Space Models (SSMs) such as Mamba achieve linear-time sequence processing through input-dependent recurrence, but this mechanism introduces a critical safety vulnerability. We show that the spectral radius rho(A-bar) of the discretized transition operator governs effective memory horizon: when an adversary drives rho toward zero through gradient-based Hidden State Poisoning, memory collapses from millions of tokens to mere dozens, silently destroying reasoning capacity without triggering output-level alarms. We prove an Evasion Existence Theorem showing that for any output-only defense, adversarial inputs exist that simultaneously induce spectral collapse and evade detection, then introduce SpectralGuard, a real-time monitor that tracks spectral stability across all model layers. SpectralGuard achieves F1=0.961 against non-adaptive attackers and retains F1=0.842 under the strongest adaptive setting, with sub-15ms per-token latency. Causal interventions and cross-architecture transfer to hybrid SSM-Attention systems confirm that spectral monitoring provides a principled, deployable safety layer for recurrent foundation models.