Scalable Mamba-Based Message-Passing Neural Decoder for Error-Correcting Codes
作者: Rostislav Gusev, Nikita Aleksandrov, Artem Solomkin, Dmitry Artemasov
分类: cs.IT, cs.LG
发布日期: 2026-05-11
备注: This work has been submitted to the IEEE for possible publication
💡 一句话要点
提出基于Mamba的消息传递神经译码器(MMPD),实现长码纠错的高效与可扩展性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 纠错码 神经译码 Mamba 状态空间模型 LDPC码 消息传递算法 深度学习
📋 核心要点
- 现有基于注意力机制的神经译码器在处理长码时,因计算与内存复杂度呈二次方增长而面临严重的扩展性瓶颈。
- 论文提出MMPD架构,结合Tanner图的局部消息传递机制与双向Mamba状态空间模型,实现高效的长距离信息传播。
- 实验证明MMPD在(1056, 880) LDPC码上实现了0.45 dB的性能增益,并显著降低了内存占用,验证了其在大规模纠错场景的潜力。
📝 摘要(中文)
前向纠错对于噪声信道下的可靠通信至关重要。基于注意力机制的无模型神经译码器在短码上表现优异,但其计算和内存开销随码长呈二次方增长,限制了其在长码中的应用。本文提出了Mamba消息传递译码器(MMPD),这是一种针对二进制线性码的、基于校验子(syndrome)的无注意力神经译码器。MMPD通过在变量节点与校验节点边上执行局部成对聚合,保留了消息传递译码器的Tanner图结构。为了实现高效的长距离信息传播,这些局部更新与双向Mamba状态空间模块相结合。通过避免稠密的注意力矩阵,MMPD在长码处理中展现出更优的内存和计算扩展性。在(1056, 880) LDPC码上的实验表明,MMPD在目标误码率下比当前最优的CrossMPT译码器提升了0.45 dB的增益,同时内存消耗降低了1.5倍,且该优势随码长增加而显著扩大。
🔬 方法详解
问题定义:论文旨在解决长码纠错中神经译码器面临的扩展性难题。传统基于Transformer的译码器依赖全局注意力机制,其计算复杂度随码长增加呈二次方增长,导致在处理长LDPC码或极化码时内存与计算资源消耗过大。
核心思路:论文引入Mamba状态空间模型(SSM)替代注意力机制。MMPD保留了Tanner图的拓扑结构,利用局部消息传递处理图的稀疏连接,同时利用Mamba的线性复杂度特性处理长距离依赖,从而在保持译码精度的同时实现计算高效性。
技术框架:MMPD架构由多层迭代模块组成。每一层包含两个核心部分:一是基于Tanner图的局部消息传递层,负责变量节点与校验节点间的局部信息交换;二是双向Mamba块,负责对消息序列进行全局特征提取与长距离依赖建模,通过状态空间更新实现信息的有效传播。
关键创新:核心创新在于将状态空间模型(SSM)引入纠错译码领域。相比于Transformer,Mamba在处理长序列时具有线性复杂度,且通过双向扫描机制有效捕捉了纠错码图中复杂的依赖关系,克服了传统消息传递算法在长距离信息传播上的局限。
关键设计:模型采用基于校验子的输入方式,通过多层堆叠的Mamba块进行特征变换。设计中特别强调了对Tanner图结构的保持,确保局部更新与全局SSM更新能够协同工作,同时通过参数共享机制提升模型的泛化能力与训练效率。
🖼️ 关键图片
📊 实验亮点
在(1056, 880) LDPC码测试中,MMPD在目标误码率下实现了0.45 dB的性能增益,超越了当前SOTA模型CrossMPT。此外,MMPD在内存消耗上降低了1.5倍,且随着码长的增加,该效率优势呈现出显著的扩大趋势,证明了其在长码纠错任务中的卓越扩展性。
🎯 应用场景
该研究主要应用于无线通信、卫星通信及深空探测等对数据传输可靠性要求极高的领域。MMPD的高扩展性使其能够处理更长、更复杂的纠错码,从而在低信噪比环境下显著提升通信链路的吞吐量与稳定性,具有极高的工业应用价值。
📄 摘要(原文)
Forward error correction is essential for reliable communication over noisy channels. Attention-based model-free neural decoders have shown strong performance for short codes, but their scalability to longer codes is limited by the quadratic memory and computational cost of attention. In this paper, we introduce the Mamba message-passing decoder (MMPD), an attention-free syndrome-based neural decoder for binary linear codes. MMPD retains the Tanner-graph structure of a message-passing decoder by performing local pairwise aggregation along variable-check edges. To enable efficient long-range information propagation, these local updates are combined with bidirectional Mamba state-space blocks. By avoiding dense attention matrices, MMPD scales more favorably for long codes in both memory and computation. Experiments on the (1056, 880) LDPC code show that MMPD achieves a 0.45 dB gain over the state-of-the-art CrossMPT decoder at a specified target bit error rate, while reducing memory consumption by a factor of 1.5. This reduction factor increases substantially for longer codes, demonstrating the applicability of MMPD to scalable neural decoding of practical long codes.