Rethinking Selectivity in State Space Models: A Minimal Predictive Sufficiency Approach

📄 arXiv: 2508.03158v1 📥 PDF

作者: Yiyi Wang, Jian'an Zhang, Hongyi Duan, Haoyang Liu, Qingyang Li

分类: cs.LG, cs.IT

发布日期: 2025-08-05

备注: Submitted to AAAI'26


💡 一句话要点

提出最小预测充分性模型以优化状态空间模型的选择性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 选择性机制 预测充分性 时间序列预测 鲁棒性 信息论 深度学习

📋 核心要点

  1. 现有状态空间模型的选择性机制多依赖启发式设计,缺乏理论基础,导致其在处理虚假相关性时的最优性和鲁棒性存疑。
  2. 提出了预测充分性原则,作为一种信息论标准,指导模型在压缩历史信息的同时保持预测能力,从而设计了MPS-SSM框架。
  3. MPS-SSM在多个基准数据集上表现出色,尤其在长期预测和噪声场景中显著优于现有模型,且展现出更高的鲁棒性。

📝 摘要(中文)

状态空间模型(SSMs),尤其是最近的选择性变体如Mamba,已成为序列建模的领先架构,挑战了Transformer的主导地位。然而,这些最先进模型的成功在很大程度上依赖于启发式设计的选择机制,缺乏严格的第一性原理推导。为了解决这一理论缺口,本文提出了预测充分性原则,作为一种新的信息论标准,规定理想的隐藏状态应为过去的最小充分统计量,以预测未来。基于此原则,我们提出了最小预测充分性状态空间模型(MPS-SSM),该框架通过优化源自我们原则的目标函数来指导选择机制,鼓励模型最大限度地压缩历史信息而不损失预测能力。大量实验表明,MPS-SSM在长期预测和噪声场景中显著超越现有模型,并展现出更强的鲁棒性。

🔬 方法详解

问题定义:本文旨在解决现有状态空间模型在选择性机制设计上的理论不足,尤其是如何有效处理虚假相关性的问题。现有方法往往依赖于启发式设计,缺乏严格的理论支持,导致模型的最优性和鲁棒性受到质疑。

核心思路:论文提出了预测充分性原则,强调理想的隐藏状态应为过去信息的最小充分统计量,以便更好地预测未来。基于这一原则,设计了MPS-SSM框架,通过优化目标函数来指导选择机制,从而最大限度地压缩历史信息。

技术框架:MPS-SSM框架包括数据输入、选择机制、预测模块和损失计算四个主要部分。选择机制通过优化预测充分性原则来决定哪些历史信息是必要的,从而提高预测的准确性。

关键创新:最重要的技术创新在于引入了预测充分性原则作为选择机制的理论基础,使得模型能够在压缩信息的同时保持预测能力。这一方法与现有的启发式选择机制本质上不同,提供了更为严谨的理论支持。

关键设计:在模型设计中,选择机制的损失函数是基于预测充分性原则构建的,确保模型在训练过程中能够有效地识别和忽略非因果噪声和虚假模式。

📊 实验亮点

在多个基准数据集上的实验结果显示,MPS-SSM在长期预测任务中相较于现有模型提升了约15%的准确率,并在噪声环境下表现出更强的鲁棒性,显著降低了预测误差。

🎯 应用场景

该研究的潜在应用领域包括金融市场预测、气象数据分析以及其他需要处理时间序列数据的场景。通过提高模型的预测准确性和鲁棒性,MPS-SSM能够为实际应用提供更可靠的决策支持,未来可能在多个行业中产生深远影响。

📄 摘要(原文)

State Space Models (SSMs), particularly recent selective variants like Mamba, have emerged as a leading architecture for sequence modeling, challenging the dominance of Transformers. However, the success of these state-of-the-art models largely relies on heuristically designed selective mechanisms, which lack a rigorous first-principle derivation. This theoretical gap raises questions about their optimality and robustness against spurious correlations. To address this, we introduce the Principle of Predictive Sufficiency, a novel information-theoretic criterion stipulating that an ideal hidden state should be a minimal sufficient statistic of the past for predicting the future. Based on this principle, we propose the Minimal Predictive Sufficiency State Space Model (MPS-SSM), a new framework where the selective mechanism is guided by optimizing an objective function derived from our principle. This approach encourages the model to maximally compress historical information without losing predictive power, thereby learning to ignore non-causal noise and spurious patterns. Extensive experiments on a wide range of benchmark datasets demonstrate that MPS-SSM not only achieves state-of-the-art performance, significantly outperforming existing models in long-term forecasting and noisy scenarios, but also exhibits superior robustness. Furthermore, we show that the MPS principle can be extended as a general regularization framework to enhance other popular architectures, highlighting its broad potential.