Looped SSMs: Depth-Recurrence and Input Reshaping for Time Series Classification

📄 arXiv: 2605.16048v1 📥 PDF

作者: Mónika Farsang, Ramin Hasani, Daniela Rus, Radu Grosu

分类: cs.LG, cs.AI

发布日期: 2026-05-15


💡 一句话要点

提出循环状态空间模型以提升时间序列分类性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 时间序列分类 深度学习 参数共享 输入重塑 模型优化 递归神经网络

📋 核心要点

  1. 现有的状态空间模型在时间序列分类任务中面临参数冗余和优化困难的问题。
  2. 本文提出循环状态空间模型,通过深度递归和输入重塑来提升模型性能,简化优化过程。
  3. 实验结果表明,循环SSM在多个基准上超越传统SSM,且输入重塑技术带来显著的准确率提升。

📝 摘要(中文)

状态空间模型(SSMs)在序列维度上具有内在的递归特性,但深度递归——在层间重复使用相同模块的方式——在这一模型家族中尚未得到探索。本文展示了一个循环SSM,通过迭代$L$次的$k$个参数,能够在四种架构(LRU、S5、LinOSS、LrcSSM)和六个时间序列分类基准上,始终与标准SSM($k imes L$个独立参数)相匹配或超越,尽管其假设空间更小。这一结果表明,深度递归与序列递归是正交的,并且各自独立地具有益处。此外,输入重塑作为一个被忽视的设计方向,通过对低维输入进行时间步拼接或对高维输入进行展平和重分块,能够在所有模型上实现1-6%的准确率提升。两种技术的结合进一步增强了效果,表明深度和输入重塑是SSMs在时间序列上两个独立且未被充分探索的设计方向。

🔬 方法详解

问题定义:本文旨在解决现有状态空间模型在时间序列分类中的参数冗余和优化困难问题。传统模型在层间缺乏有效的参数共享,导致模型复杂度高且训练困难。

核心思路:提出循环状态空间模型(looped SSM),通过在深度上重复使用相同的模块,减少参数数量并提高模型的优化效率。此外,输入重塑技术被引入,以改善低维和高维输入的处理方式。

技术框架:整体架构包括循环状态空间模型的设计和输入重塑的实现。循环SSM通过迭代相同的参数块来构建深度网络,而输入重塑则通过拼接和重分块来优化输入数据的结构。

关键创新:最重要的技术创新在于引入深度递归机制,证明其在参数共享方面的优势,能够在较小的假设空间中实现与传统模型相当或更好的性能。

关键设计:在参数设置上,循环SSM使用$k$个参数迭代$L$次,损失函数采用标准的分类损失,网络结构则包含多个循环模块和输入重塑层,以适应不同维度的输入数据。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,循环SSM在四种不同架构上均超越了标准SSM,且在六个时间序列分类基准上实现了1-6%的准确率提升。此外,输入重塑技术的引入进一步增强了模型的整体性能,验证了其有效性。

🎯 应用场景

该研究的潜在应用领域包括金融数据分析、医疗监测、气象预测等时间序列分类任务。通过提升模型的性能和优化效率,能够为相关领域提供更准确的预测和决策支持,具有重要的实际价值和未来影响。

📄 摘要(原文)

State Space Models (SSMs) are inherently recurrent along the sequence dimension, yet depth-recurrence - reusing the same block repeatedly across layers, as recently applied in looped transformers - has not been explored in this model family. We show that a looped SSM with $k$ parameters iterated $L$ times consistently closely matches or outperforms a standard SSM with $k \cdot L$ independent parameters across four architectures (LRU, S5, LinOSS, LrcSSM) and six time series classification benchmarks, despite operating within a strictly smaller hypothesis space, as we formally establish. Since the larger model contains the looped model as a special case, this dominance cannot be explained by expressivity and instead points to parameter sharing across depth as a beneficial inductive bias that simplifies optimization. These results demonstrate that depth-recurrence is orthogonal to sequence-recurrence and independently beneficial. We further show that input reshaping is an equally neglected design axis: concatenating timesteps for low-dimensional inputs, or flattening and rechunking the joint feature-time dimension for high-dimensional ones, yields accuracy gains of 1-6% across all models, confirmed over 5 random seeds. Both techniques provide standalone improvements that compound when combined, suggesting that depth and input reshaping are two independent and underexplored design axes for SSMs on time series.