Uncovering the Spectral Bias in Diagonal State Space Models
作者: Ruben Solozabal, Velibor Bojkovic, Hilal AlQuabeh, Kentaro Inui, Martin Takáč
分类: cs.LG, cs.AI
发布日期: 2025-08-28
💡 一句话要点
提出S4D-DFouT,揭示对角状态空间模型中的频谱偏置并提升长序列建模性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 状态空间模型 频谱偏置 对角初始化 长序列建模 离散傅里叶变换
📋 核心要点
- 现有状态空间模型初始化方法,如HiPPO,对角变体效率高但理论理解不足。
- 论文从频域角度分析对角SSM初始化,揭示其学习偏差,并提出S4D-DFouT初始化方法。
- S4D-DFouT在长序列基准测试中取得领先成果,并成功应用于大规模数据集的训练。
📝 摘要(中文)
目前状态空间模型(SSM)参数的初始化方法主要依赖于基于正交多项式在线近似的HiPPO框架。最近,对角线变体在简化核计算的同时,也表现出相似的性能水平,效率显著提高。然而,HiPPO框架并未明确研究其对角线变体的作用。本文进一步研究了对角线SSM初始化方案在频域中的作用,旨在系统地理解如何参数化这些模型,并揭示此类对角状态空间模型中固有的学习偏差。基于我们的观察,我们提出了一种在离散傅里叶域上的对角初始化方法S4D-DFouT。对初始化中极点放置作用的理解使我们能够进一步扩展它们,并在Long Range Arena基准测试中实现最先进的结果,从而能够从头开始在PathX-256等非常大的数据集上进行训练。
🔬 方法详解
问题定义:论文旨在解决状态空间模型(SSM)中对角初始化方法的理论理解不足的问题。现有的HiPPO框架虽然被广泛使用,但对对角变体的作用缺乏深入研究,导致无法充分发挥其效率优势,并且可能存在未知的学习偏差。
核心思路:论文的核心思路是从频域角度分析对角SSM的初始化,通过研究极点放置对模型学习的影响,揭示对角SSM中固有的频谱偏置。基于此,论文提出一种新的初始化方法,即在离散傅里叶域(Discrete Fourier domain)上进行对角初始化,从而更好地控制模型的频谱特性。
技术框架:论文提出的S4D-DFouT方法主要包含以下几个阶段:首先,对输入数据进行预处理;然后,在离散傅里叶域中初始化对角状态空间模型的参数,关键在于极点的选择和放置;接着,使用初始化后的模型进行训练;最后,在测试集上评估模型的性能。整体框架是在现有SSM的基础上,改进了初始化策略。
关键创新:论文最重要的技术创新点在于提出了在离散傅里叶域上进行对角初始化的方法S4D-DFouT。与传统的基于正交多项式的初始化方法不同,S4D-DFouT能够更直接地控制模型的频谱特性,从而更好地适应不同频率成分的数据。
关键设计:S4D-DFouT的关键设计包括:1) 在离散傅里叶域中选择合适的极点位置,以控制模型的频率响应;2) 设计相应的损失函数,以优化模型的参数;3) 针对大规模数据集,采用高效的训练策略。具体的极点选择策略和损失函数设计在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
论文提出的S4D-DFouT方法在Long Range Arena基准测试中取得了最先进的结果,表明其在长序列建模方面具有显著优势。此外,该方法还成功应用于PathX-256等大规模数据集的训练,证明了其在大规模数据上的可扩展性。这些实验结果充分验证了S4D-DFouT的有效性和实用性。
🎯 应用场景
该研究成果可广泛应用于需要处理长序列数据的领域,如语音识别、自然语言处理、时间序列分析等。通过更有效地初始化状态空间模型,可以提高模型的训练效率和性能,从而更好地解决实际问题。未来,该方法有望应用于更大规模、更复杂的数据集,并推动相关领域的发展。
📄 摘要(原文)
Current methods for initializing state space models (SSMs) parameters mainly rely on the \textit{HiPPO framework}, which is based on an online approximation of orthogonal polynomials. Recently, diagonal alternatives have shown to reach a similar level of performance while being significantly more efficient due to the simplification in the kernel computation. However, the \textit{HiPPO framework} does not explicitly study the role of its diagonal variants. In this paper, we take a further step to investigate the role of diagonal SSM initialization schemes from the frequency perspective. Our work seeks to systematically understand how to parameterize these models and uncover the learning biases inherent in such diagonal state-space models. Based on our observations, we propose a diagonal initialization on the discrete Fourier domain \textit{S4D-DFouT}. The insights in the role of pole placing in the initialization enable us to further scale them and achieve state-of-the-art results on the Long Range Arena benchmark, allowing us to train from scratch on very large datasets as PathX-256.