Elastic Spectral State Space Models for Budgeted Inference

📄 arXiv: 2601.22488v1 📥 PDF

作者: Dachuan Song, Xuan Wang

分类: cs.LG

发布日期: 2026-01-30


💡 一句话要点

提出弹性谱状态空间模型,实现单次训练、任意规模的运行时推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弹性模型 状态空间模型 谱滤波 运行时推理 预算约束

📋 核心要点

  1. 现有模型通常在固定计算能力下训练,难以适应不同资源约束的平台,需要额外的训练或蒸馏。
  2. ES-SSM通过Hankel谱滤波和输入自适应门控,实现模型在运行时根据预算进行灵活截断,无需重新训练。
  3. 实验表明,ES-SSM在多种长序列任务上,能在不同预算下提供与Transformer和SSM基线相当的性能。

📝 摘要(中文)

本文提出弹性谱状态空间模型(ES-SSM),该模型只需在全容量下进行一次训练,即可直接截断为任意规模,用于有预算约束的运行时推理,无需重新训练。ES-SSM基于状态空间模型(SSM)上的Hankel谱滤波构建,并结合在随机谱预算下训练的轻量级输入自适应门控。通过在有序谱通道上使用共享的掩码归一化规则,鼓励预测能力集中在低索引分量中,而高索引分量主要作为细化。我们在涵盖文本、逻辑、检索、视觉和音频的长序列基准测试中验证了该算法。结果表明,单个ES-SSM模型经过一次训练后,可以截断到与现代Transformer和SSM基线在相似参数规模下具有竞争力的性能。此外,通过在各种运行时预算下进行测试,我们观察到在各种截断级别上平滑且稳定的预算-性能曲线。

🔬 方法详解

问题定义:现有深度学习模型,特别是Transformer和SSM等,通常在固定的计算资源下进行训练。当部署到资源受限的设备或需要根据实时预算调整计算量时,这些模型要么需要训练多个不同大小的版本,要么需要使用模型蒸馏等技术,这增加了训练成本,并且只能支持预先选择好的模型大小,无法进行细粒度的运行时调整。

核心思路:本文的核心思想是设计一种“弹性”模型,该模型可以在训练完成后,根据运行时的计算预算,动态地调整模型的大小,而无需重新训练。通过将模型表示为谱分量的组合,并允许在运行时截断这些谱分量,可以实现对模型计算量的精细控制。

技术框架:ES-SSM模型建立在状态空间模型(SSM)之上,并引入了Hankel谱滤波。整体流程如下:1) 使用状态空间模型提取序列特征。2) 对提取的特征进行Hankel谱分解,得到一系列谱分量。3) 使用一个轻量级的输入自适应门控网络,根据输入和当前的计算预算,选择要使用的谱分量。4) 使用共享的掩码归一化规则,鼓励模型将预测能力集中在低索引的谱分量上。

关键创新:ES-SSM的关键创新在于其能够将模型表示为一系列谱分量的组合,并且可以在运行时动态地选择这些谱分量。与传统的模型压缩方法(如剪枝或量化)不同,ES-SSM不需要重新训练模型,并且可以实现对模型大小的精细控制。此外,输入自适应门控机制允许模型根据输入的不同,动态地调整所使用的谱分量,从而进一步提高模型的效率。

关键设计:ES-SSM的关键设计包括:1) Hankel谱滤波器的设计,用于将模型表示为谱分量的组合。2) 输入自适应门控网络的设计,用于根据输入和计算预算选择谱分量。3) 共享掩码归一化规则的设计,用于鼓励模型将预测能力集中在低索引的谱分量上。损失函数包括标准的交叉熵损失,以及用于正则化门控网络输出的辅助损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ES-SSM在文本、逻辑、检索、视觉和音频等多种长序列任务上,能够在不同计算预算下提供与Transformer和SSM基线相当甚至更优的性能。例如,在某些任务上,ES-SSM在参数量减少50%的情况下,仍然能够保持与全尺寸模型相当的精度。此外,ES-SSM的预算-性能曲线平滑且稳定,表明该模型能够很好地适应不同的计算预算。

🎯 应用场景

ES-SSM适用于各种需要根据资源约束进行部署的场景,例如移动设备上的自然语言处理、边缘计算环境下的计算机视觉、以及需要根据实时预算调整计算量的在线服务。该模型可以降低部署成本,提高资源利用率,并为用户提供更灵活的服务。

📄 摘要(原文)

Foundation models are typically trained at a fixed computational capacity, while real-world applications require deployment across platforms with different resource constraints. Current approaches usually rely on training families of model variants or model distillation, which requires additional training and supports only a pre-selected set of sizes rather than fine-grained adaptation at runtime. In this paper, we propose Elastic Spectral State Space Models (ES-SSM), which require only one-time training at full capacity, but can be directly truncated into arbitrary scales for budgeted, runtime inference without retraining. Our ES-SSM builds on Hankel spectral filtering over a state space model (SSM), coupled with a lightweight input-adaptive gate trained under randomized spectral budgets. Using a shared masked normalization rule over the ordered spectral channels, we encourage predictive capability to concentrate in low-index components, while higher-index components act primarily as refinement. We test our algorithm across long-sequence benchmarks spanning text, logic, retrieval, vision, and audio. We demonstrate that a single ES-SSM model trained once can be truncated to provide competitive performance compared with modern Transformer and SSM baselines at similar parameter scales. Furthermore, by testing under various runtime budgets, we observe smooth and stable budget-performance curves over a wide range of truncation levels.