MambaCSP: Hybrid-Attention State Space Models for Hardware-Efficient Channel State Prediction

📄 arXiv: 2604.21957v1 📥 PDF

作者: Aladin Djuhera, Haris Gacanin, Holger Boche

分类: cs.IT, cs.AI, cs.LG, eess.SP

发布日期: 2026-04-23


💡 一句话要点

提出MambaCSP,一种硬件高效的混合注意力状态空间信道状态预测模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信道状态预测 状态空间模型 Mamba模型 注意力机制 无线通信 硬件效率 AI原生

📋 核心要点

  1. 基于注意力机制的Transformer和LLM在信道状态预测(CSP)中表现出色,但计算成本高、内存消耗大,限制了其在实时和资源受限无线环境中的应用。
  2. MambaCSP采用混合注意力SSM架构,用线性时间复杂度的Mamba模型替代LLM,并引入轻量级patch-mixer注意力层,增强长程依赖建模能力。
  3. 实验结果表明,MambaCSP在预测精度上优于LLM方法9-12%,同时显著提升吞吐量(3.0x)、降低VRAM使用率(2.6x)和推理延迟(2.9x)。

📝 摘要(中文)

本文研究了选择性状态空间模型(SSM)是否可以作为信道状态信息(CSI)预测的硬件高效替代方案。我们提出了MambaCSP,一种混合注意力SSM架构,它用线性时间的Mamba模型替换了基于LLM的预测骨干网络。为了克服纯SSM的局部依赖性,我们引入了轻量级的patch-mixer注意力层,周期性地注入跨token注意力,以帮助进行长上下文CSI预测。MISO-OFDM仿真表明,MambaCSP比基于LLM的方法提高了9-12%的预测精度,同时提供了高达3.0倍的吞吐量、2.6倍更低的VRAM使用率和2.9倍更快的推理速度。结果表明,混合状态空间架构为未来无线网络中可扩展且硬件高效的AI原生CSI预测提供了一个有希望的方向。

🔬 方法详解

问题定义:现有基于Transformer和LLM的信道状态预测方法,虽然能够捕捉信道状态信息序列中的长程时间依赖关系,但由于注意力机制的二次方复杂度,导致计算成本高昂、内存消耗巨大,难以在资源受限的无线通信系统中部署。因此,需要一种更高效的模型来解决这个问题。

核心思路:论文的核心思路是利用选择性状态空间模型(SSM)作为信道状态预测的替代方案,特别是Mamba模型,它具有线性时间复杂度。为了弥补纯SSM模型在捕捉长程依赖方面的不足,论文引入了轻量级的patch-mixer注意力层,周期性地注入跨token注意力,从而实现全局信息的交互。

技术框架:MambaCSP的整体架构是一个混合模型,主要包含两个部分:Mamba模型和patch-mixer注意力层。Mamba模型负责序列数据的处理和状态更新,patch-mixer注意力层负责在不同token之间进行信息交互,增强模型对长程依赖的建模能力。这两个部分交替出现,形成一个混合的预测模型。

关键创新:该论文的关键创新在于将Mamba模型与轻量级注意力机制相结合,构建了一种混合的状态空间模型(MambaCSP)。这种混合架构既保留了Mamba模型的线性时间复杂度优势,又通过注意力机制增强了模型对长程依赖的建模能力。与传统的基于Transformer的模型相比,MambaCSP在计算效率和内存占用方面具有显著优势。

关键设计:patch-mixer注意力层采用轻量级设计,以减少计算开销。具体实现细节(如注意力头的数量、patch的大小等)未在摘要中明确说明,属于未知信息。损失函数和具体的训练策略也未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MambaCSP在MISO-OFDM仿真中表现出色,相较于基于LLM的方法,预测精度提升了9-12%,吞吐量提高了3.0倍,VRAM使用率降低了2.6倍,推理速度加快了2.9倍。这些结果表明,MambaCSP在硬件效率和预测性能方面都具有显著优势。

🎯 应用场景

MambaCSP具有广泛的应用前景,尤其是在资源受限的无线通信场景中,例如边缘计算、物联网设备和移动通信系统。它可以用于提高信道状态预测的准确性和效率,从而优化无线资源的分配,提升通信质量,并降低设备的功耗。此外,该模型还可以应用于其他时序数据预测任务,例如股票市场预测和天气预报。

📄 摘要(原文)

Recent works have demonstrated that attention-based transformer and large language model (LLM) architectures can achieve strong channel state prediction (CSP) performance by capturing long-range temporal dependencies across channel state information (CSI) sequences. However, these models suffer from quadratic scaling in sequence length, leading to substantial computational cost, memory consumption, and inference latency, which limits their applicability in real-time and resource-constrained wireless deployments. In this paper, we investigate whether selective state space models (SSMs) can serve as a hardware-efficient alternative for CSI prediction. We propose MambaCSP, a hybrid-attention SSM architecture that replaces LLM-based prediction backbones with a linear-time Mamba model. To overcome the local-only dependencies of pure SSMs, we introduce lightweight patch-mixer attention layers that periodically inject cross-token attentions, helping with long-context CSI prediction. Extensive MISO-OFDM simulations show that MambaCSP improves prediction accuracy over LLM-based approaches by 9-12%, while delivering up to 3.0x higher throughput, 2.6x lower VRAM usage, and 2.9x faster inference. Our results demonstrate that hybrid state space architectures provide a promising direction for scalable and hardware-efficient AI-native CSI prediction in future wireless networks.