Interpreting and Steering State-Space Models via Activation Subspace Bottlenecks

📄 arXiv: 2602.22719 📥 PDF

作者: Vamshi Sunku Mohan, Kaustubh Gupta, Aneesha Das, Chandan Singh

分类: cs.LG

发布日期: 2026-02-28


💡 一句话要点

通过激活子空间瓶颈提升状态空间模型的可解释性与可操控性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 可解释性 可操控性 激活子空间 性能提升 自然语言处理 机器学习

📋 核心要点

  1. 现有状态空间模型在可解释性和可操控性方面的研究相对不足,限制了其应用潜力。
  2. 本文通过识别激活子空间瓶颈,提出了一种简单有效的干预方法,增强了模型的可操控性。
  3. 在多个模型和基准测试中,提出的方法平均提升了8.27%的性能,显示出良好的效果。

📝 摘要(中文)

状态空间模型(SSMs)作为构建强大语言模型的有效策略,避免了变换器中计算注意力的平方复杂度。然而,现代SSMs的可解释性和可操控性仍然相对欠缺。本文通过机械解释学工具识别Mamba系列SSMs中的激活子空间瓶颈,提出了一种测试时干预方法,通过将识别出的瓶颈激活值乘以标量来进行操控。在5个SSMs和6个不同基准测试中,该干预平均提升了8.27%的性能,无需任何特定任务的调优。最后,我们通过修改瓶颈验证其确实影响性能,提出了Stable-Mamba架构,在从头训练时实现了长上下文性能的提升。

🔬 方法详解

问题定义:本文旨在解决现代状态空间模型在可解释性和可操控性方面的不足,现有方法未能有效识别和利用模型中的瓶颈。

核心思路:通过识别激活子空间瓶颈,论文提出了一种在测试时通过简单的标量乘法来操控模型激活的方法,从而提升模型性能。

技术框架:整体流程包括激活子空间瓶颈的识别、干预方法的实施以及性能评估。主要模块包括瓶颈识别算法和测试时干预机制。

关键创新:最重要的创新在于通过激活子空间瓶颈的识别与干预,显著提升了模型的可操控性和性能,这是现有方法所未能实现的。

关键设计:在设计中,采用了机械解释学工具进行瓶颈识别,干预方法不需要任务特定的调优,且在Stable-Mamba架构中实现了长上下文性能的提升。

📊 实验亮点

实验结果显示,提出的干预方法在5个状态空间模型和6个基准测试中,平均提升了8.27%的性能,且无需进行任务特定的调优。这一结果表明,识别和操控激活子空间瓶颈能够显著改善模型表现。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等。通过提升状态空间模型的可解释性和可操控性,研究成果能够帮助开发更智能的语言模型,推动人工智能在实际应用中的发展与落地。

📄 摘要(原文)

State-space models (SSMs) have emerged as an efficient strategy for building powerful language models, avoiding the quadratic complexity of computing attention in transformers. Despite their promise, the interpretability and steerability of modern SSMs remain relatively underexplored. We take a major step in this direction by identifying activation subspace bottlenecks in the Mamba family of SSM models using tools from mechanistic interpretability. We then introduce a test-time steering intervention that simply multiplies the activations of the identified bottlenecks by a scalar. Across 5 SSMs and 6 diverse benchmarks, this intervention improves performance by an average of 8.27%, without requiring any task-specific tuning. Finally, we validate that the identified bottlenecks are indeed hindering performance by modifying them to yield an architecture we call Stable-Mamba, which achieves long-context performance gains when retrained from scratch.