SpectralGuard: Detecting Memory Collapse Attacks in State Space Models

作者: Davi Bonetto

分类: cs.LG, cs.CR

发布日期: 2026-03-12

备注: 24 pages, 10 figures. Code, dataset, and demo: https://github.com/DaviBonetto/spectralguard

💡 一句话要点

提出SpectralGuard，用于检测状态空间模型中的内存崩溃攻击

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 状态空间模型 内存崩溃攻击 谱半径 安全防御 实时监控 对抗性攻击 循环神经网络

📋 核心要点

状态空间模型存在内存崩溃的安全漏洞，攻击者可降低谱半径，缩短模型记忆范围。
提出SpectralGuard，通过实时监控模型各层的谱稳定性来检测内存崩溃攻击。
SpectralGuard在多种攻击场景下表现出色，且延迟低，可作为循环模型的安全层。

📝 摘要（中文）

状态空间模型（SSM），如Mamba，通过输入相关的循环实现了线性时间序列处理，但这种机制引入了一个关键的安全漏洞。本文表明，离散化转移算子的谱半径rho(A-bar)控制着有效的记忆范围：当攻击者通过基于梯度的隐藏状态投毒将rho驱动到接近于零时，记忆会从数百万个token崩溃到仅仅几十个，从而在不触发输出层警报的情况下悄无声息地破坏推理能力。本文证明了一个规避存在定理，表明对于任何仅基于输出的防御，都存在可以同时诱导谱崩溃并逃避检测的对抗性输入。然后，本文引入了SpectralGuard，这是一个实时监控器，用于跟踪所有模型层中的谱稳定性。SpectralGuard在非自适应攻击者下的F1值为0.961，在最强的自适应设置下仍保持F1值为0.842，且每个token的延迟低于15毫秒。因果干预和跨架构转移到混合SSM-Attention系统证实，谱监控为循环基础模型提供了一个原则性的、可部署的安全层。

🔬 方法详解

问题定义：状态空间模型（SSM）虽然在序列处理上具有优势，但其输入依赖的循环机制使其容易受到内存崩溃攻击。攻击者可以通过构造恶意输入，降低模型内部状态转移矩阵的谱半径，从而显著缩短模型的有效记忆范围，导致模型推理能力下降。现有防御方法主要集中在输出层，难以有效检测此类攻击，因为攻击可以在不明显改变输出的情况下发生。

核心思路：本文的核心思路是利用谱半径作为衡量模型记忆能力的关键指标。通过实时监控模型各层的谱半径变化，可以及时发现攻击者试图降低模型记忆范围的行为。SpectralGuard通过检测谱半径的异常下降来识别潜在的内存崩溃攻击。

技术框架：SpectralGuard作为一个实时监控器，嵌入到SSM模型中。它主要包含以下几个阶段：1) 状态提取：从模型的各个层提取隐藏状态。2) 谱半径计算：基于提取的隐藏状态，计算每一层的状态转移矩阵的谱半径。3) 异常检测：将计算得到的谱半径与预定义的阈值进行比较，检测是否存在异常下降。4) 警报：如果检测到谱半径异常下降，则发出警报，提示可能存在内存崩溃攻击。

关键创新：本文的关键创新在于将谱半径作为检测内存崩溃攻击的指标，并提出了SpectralGuard这一实时监控框架。与传统的基于输出的防御方法不同，SpectralGuard直接监控模型内部状态，能够更早地发现攻击行为。此外，本文还证明了对于任何仅基于输出的防御，都存在可以同时诱导谱崩溃并逃避检测的对抗性输入，从而强调了内部状态监控的重要性。

关键设计：SpectralGuard的关键设计包括：1) 谱半径计算方法：论文可能采用了幂迭代法或其他高效的算法来计算谱半径。2) 阈值设定：需要根据模型的特性和应用场景，合理设定谱半径的阈值，以避免误报或漏报。3) 延迟优化：为了保证实时性，SpectralGuard需要尽可能降低计算谱半径的延迟。论文提到SpectralGuard的延迟低于15ms/token，这可能涉及到一些优化策略。

🖼️ 关键图片

📊 实验亮点

SpectralGuard在检测内存崩溃攻击方面表现出色，在非自适应攻击者下的F1值为0.961，在最强的自适应设置下仍保持F1值为0.842，且每个token的延迟低于15毫秒。实验结果表明，SpectralGuard能够有效防御各种类型的内存崩溃攻击，并且具有较低的延迟，可以实时部署到实际应用中。此外，该研究还验证了SpectralGuard在混合SSM-Attention系统中的有效性。

🎯 应用场景

SpectralGuard可应用于各种基于状态空间模型的应用场景，如自然语言处理、语音识别、时间序列预测等。通过实时监控模型的谱稳定性，可以有效防御内存崩溃攻击，提高模型的安全性和可靠性。该研究对于提升循环神经网络在安全领域的应用具有重要价值，尤其是在对安全性要求较高的场景中。

📄 摘要（原文）

State Space Models (SSMs) such as Mamba achieve linear-time sequence processing through input-dependent recurrence, but this mechanism introduces a critical safety vulnerability. We show that the spectral radius rho(A-bar) of the discretized transition operator governs effective memory horizon: when an adversary drives rho toward zero through gradient-based Hidden State Poisoning, memory collapses from millions of tokens to mere dozens, silently destroying reasoning capacity without triggering output-level alarms. We prove an Evasion Existence Theorem showing that for any output-only defense, adversarial inputs exist that simultaneously induce spectral collapse and evade detection, then introduce SpectralGuard, a real-time monitor that tracks spectral stability across all model layers. SpectralGuard achieves F1=0.961 against non-adaptive attackers and retains F1=0.842 under the strongest adaptive setting, with sub-15ms per-token latency. Causal interventions and cross-architecture transfer to hybrid SSM-Attention systems confirm that spectral monitoring provides a principled, deployable safety layer for recurrent foundation models.

SpectralGuard: Detecting Memory Collapse Attacks in State Space Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理