GRAM-MAMBA: Holistic Feature Alignment for Wireless Perception with Adaptive Low-Rank Compensation

📄 arXiv: 2507.13803v1 📥 PDF

作者: Weiqi Yang, Xu Zhou, Jingfu Guan, Hao Du, Tianyu Bai

分类: cs.CV

发布日期: 2025-07-18


💡 一句话要点

提出GRAM-MAMBA,通过自适应低秩补偿实现无线感知中高效鲁棒的多模态融合。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 物联网感知 Mamba模型 GRAM矩阵 低秩自适应 数据缺失 无线感知

📋 核心要点

  1. 现有物联网多模态感知系统存在模型复杂度高、模态对齐方式单一、数据缺失鲁棒性差等问题,限制了实际应用。
  2. GRAM-MAMBA利用Mamba模型处理时序数据,通过GRAM矩阵实现模态间的成对对齐,并采用自适应低秩补偿处理数据缺失。
  3. 实验表明,GRAM-MAMBA在室内定位和人体活动识别任务上均优于现有方法,且在数据缺失情况下仍能保持较高性能。

📝 摘要(中文)

多模态融合对于物联网感知至关重要,广泛应用于智能家居、智能交通、工业自动化和医疗保健。然而,现有系统面临诸多挑战:高模型复杂度限制了在资源受限环境中的部署,单向模态对齐忽略了模态间的关系,并且当传感器数据缺失时鲁棒性会降低。这些问题阻碍了现实物联网环境中高效且鲁棒的多模态感知。为了克服这些限制,我们提出了GRAM-MAMBA。该框架利用线性复杂度的Mamba模型进行高效的传感器时间序列处理,并结合优化的GRAM矩阵策略进行模态间的成对对齐,解决了传统单模态对齐的缺点。受低秩自适应(LoRA)的启发,我们引入了一种自适应低秩层补偿策略来处理训练后缺失的模态。该策略冻结了预训练模型的核心和不相关的自适应层,仅微调与可用模态和融合过程相关的层。大量实验验证了GRAM-MAMBA的有效性。在SPAWC2021室内定位数据集上,预训练模型显示出比基线更低的误差;通过训练不到0.2%的参数,适应缺失模态可带来24.5%的性能提升。在USC-HAD人体活动识别数据集上,它实现了93.55%的F1和93.81%的总体准确率(OA),优于先前的工作;更新策略在训练不到0.3%的参数的情况下,将F1提高了23%。这些结果突出了GRAM-MAMBA在资源受限环境中实现高效且鲁棒的多模态感知的潜力。

🔬 方法详解

问题定义:论文旨在解决物联网环境中多模态感知系统面临的挑战,包括模型复杂度高、模态对齐不充分以及传感器数据缺失时的鲁棒性问题。现有方法通常采用复杂的模型结构,难以在资源受限的设备上部署。此外,传统的单向模态对齐忽略了模态之间的相互关系,而当某些传感器数据缺失时,系统的性能会显著下降。

核心思路:论文的核心思路是利用Mamba模型的高效时序处理能力,结合GRAM矩阵进行模态间的成对对齐,并引入自适应低秩补偿策略来处理数据缺失问题。Mamba模型具有线性复杂度,适合资源受限环境;GRAM矩阵能够捕捉模态间的pairwise关系;自适应低秩补偿则可以在预训练模型的基础上,通过少量参数的微调来适应不同的模态组合。

技术框架:GRAM-MAMBA框架主要包含三个核心模块:1) 基于Mamba模型的传感器时间序列处理模块,用于提取各模态的特征;2) 基于GRAM矩阵的模态对齐模块,用于捕捉模态间的pairwise关系;3) 基于自适应低秩补偿的模态缺失处理模块,用于在部分模态缺失的情况下,保持系统的鲁棒性。整体流程是:首先利用Mamba模型提取各模态特征,然后通过GRAM矩阵进行模态对齐,最后根据可用的模态组合,利用自适应低秩补偿策略进行微调。

关键创新:论文最重要的技术创新点在于提出了GRAM-MAMBA框架,该框架结合了Mamba模型、GRAM矩阵和自适应低秩补偿策略,从而在模型复杂度、模态对齐和数据缺失鲁棒性方面都取得了显著的提升。与现有方法相比,GRAM-MAMBA能够更高效地处理时序数据,更全面地捕捉模态间的关系,并且在数据缺失的情况下仍能保持较高的性能。

关键设计:在Mamba模型方面,采用了标准的Mamba架构,并根据具体的传感器数据特点进行了参数调整。在GRAM矩阵方面,采用了优化的计算方法,以降低计算复杂度。在自适应低秩补偿方面,借鉴了LoRA的思想,冻结了预训练模型的核心参数,仅微调与可用模态和融合过程相关的低秩层。损失函数方面,采用了交叉熵损失函数,并根据具体的任务进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在SPAWC2021室内定位数据集上,GRAM-MAMBA预训练模型误差低于基线,通过训练不到0.2%的参数,适应缺失模态可带来24.5%的性能提升。在USC-HAD人体活动识别数据集上,GRAM-MAMBA实现了93.55%的F1和93.81%的总体准确率(OA),优于先前的工作;更新策略在训练不到0.3%的参数的情况下,将F1提高了23%。

🎯 应用场景

GRAM-MAMBA适用于各种物联网多模态感知应用,例如智能家居中的环境感知与控制、智能交通中的车辆状态监测与驾驶辅助、工业自动化中的设备状态监测与故障诊断、以及医疗保健中的人体活动识别与健康监测。该研究成果有助于在资源受限的边缘设备上部署更高效、更鲁棒的多模态感知系统,从而提升物联网应用的智能化水平。

📄 摘要(原文)

Multi-modal fusion is crucial for Internet of Things (IoT) perception, widely deployed in smart homes, intelligent transport, industrial automation, and healthcare. However, existing systems often face challenges: high model complexity hinders deployment in resource-constrained environments, unidirectional modal alignment neglects inter-modal relationships, and robustness suffers when sensor data is missing. These issues impede efficient and robust multimodal perception in real-world IoT settings. To overcome these limitations, we propose GRAM-MAMBA. This framework utilizes the linear-complexity Mamba model for efficient sensor time-series processing, combined with an optimized GRAM matrix strategy for pairwise alignment among modalities, addressing the shortcomings of traditional single-modality alignment. Inspired by Low-Rank Adaptation (LoRA), we introduce an adaptive low-rank layer compensation strategy to handle missing modalities post-training. This strategy freezes the pre-trained model core and irrelevant adaptive layers, fine-tuning only those related to available modalities and the fusion process. Extensive experiments validate GRAM-MAMBA's effectiveness. On the SPAWC2021 indoor positioning dataset, the pre-trained model shows lower error than baselines; adapting to missing modalities yields a 24.5% performance boost by training less than 0.2% of parameters. On the USC-HAD human activity recognition dataset, it achieves 93.55% F1 and 93.81% Overall Accuracy (OA), outperforming prior work; the update strategy increases F1 by 23% while training less than 0.3% of parameters. These results highlight GRAM-MAMBA's potential for achieving efficient and robust multimodal perception in resource-constrained environments.