GRAM-MAMBA: Holistic Feature Alignment for Wireless Perception with Adaptive Low-Rank Compensation

作者: Weiqi Yang, Xu Zhou, Jingfu Guan, Hao Du, Tianyu Bai

分类: cs.CV

发布日期: 2025-07-18

💡 一句话要点

提出GRAM-MAMBA，通过自适应低秩补偿实现无线感知中高效鲁棒的多模态融合。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 物联网感知 Mamba模型 GRAM矩阵 低秩自适应 数据缺失 无线感知

📋 核心要点

现有物联网多模态感知系统存在模型复杂度高、模态对齐方式单一、数据缺失鲁棒性差等问题，限制了实际应用。
GRAM-MAMBA利用Mamba模型处理时序数据，通过GRAM矩阵实现模态间的成对对齐，并采用自适应低秩补偿处理数据缺失。
实验表明，GRAM-MAMBA在室内定位和人体活动识别任务上均优于现有方法，且在数据缺失情况下仍能保持较高性能。

📝 摘要（中文）

多模态融合对于物联网感知至关重要，广泛应用于智能家居、智能交通、工业自动化和医疗保健。然而，现有系统面临诸多挑战：高模型复杂度限制了在资源受限环境中的部署，单向模态对齐忽略了模态间的关系，并且当传感器数据缺失时鲁棒性会降低。这些问题阻碍了现实物联网环境中高效且鲁棒的多模态感知。为了克服这些限制，我们提出了GRAM-MAMBA。该框架利用线性复杂度的Mamba模型进行高效的传感器时间序列处理，并结合优化的GRAM矩阵策略进行模态间的成对对齐，解决了传统单模态对齐的缺点。受低秩自适应(LoRA)的启发，我们引入了一种自适应低秩层补偿策略来处理训练后缺失的模态。该策略冻结了预训练模型的核心和不相关的自适应层，仅微调与可用模态和融合过程相关的层。大量实验验证了GRAM-MAMBA的有效性。在SPAWC2021室内定位数据集上，预训练模型显示出比基线更低的误差；通过训练不到0.2%的参数，适应缺失模态可带来24.5%的性能提升。在USC-HAD人体活动识别数据集上，它实现了93.55%的F1和93.81%的总体准确率(OA)，优于先前的工作；更新策略在训练不到0.3%的参数的情况下，将F1提高了23%。这些结果突出了GRAM-MAMBA在资源受限环境中实现高效且鲁棒的多模态感知的潜力。

🔬 方法详解

问题定义：论文旨在解决物联网环境中多模态感知系统面临的挑战，包括模型复杂度高、模态对齐不充分以及传感器数据缺失时的鲁棒性问题。现有方法通常采用复杂的模型结构，难以在资源受限的设备上部署。此外，传统的单向模态对齐忽略了模态之间的相互关系，而当某些传感器数据缺失时，系统的性能会显著下降。

核心思路：论文的核心思路是利用Mamba模型的高效时序处理能力，结合GRAM矩阵进行模态间的成对对齐，并引入自适应低秩补偿策略来处理数据缺失问题。Mamba模型具有线性复杂度，适合资源受限环境；GRAM矩阵能够捕捉模态间的pairwise关系；自适应低秩补偿则可以在预训练模型的基础上，通过少量参数的微调来适应不同的模态组合。

技术框架：GRAM-MAMBA框架主要包含三个核心模块：1) 基于Mamba模型的传感器时间序列处理模块，用于提取各模态的特征；2) 基于GRAM矩阵的模态对齐模块，用于捕捉模态间的pairwise关系；3) 基于自适应低秩补偿的模态缺失处理模块，用于在部分模态缺失的情况下，保持系统的鲁棒性。整体流程是：首先利用Mamba模型提取各模态特征，然后通过GRAM矩阵进行模态对齐，最后根据可用的模态组合，利用自适应低秩补偿策略进行微调。

关键创新：论文最重要的技术创新点在于提出了GRAM-MAMBA框架，该框架结合了Mamba模型、GRAM矩阵和自适应低秩补偿策略，从而在模型复杂度、模态对齐和数据缺失鲁棒性方面都取得了显著的提升。与现有方法相比，GRAM-MAMBA能够更高效地处理时序数据，更全面地捕捉模态间的关系，并且在数据缺失的情况下仍能保持较高的性能。

关键设计：在Mamba模型方面，采用了标准的Mamba架构，并根据具体的传感器数据特点进行了参数调整。在GRAM矩阵方面，采用了优化的计算方法，以降低计算复杂度。在自适应低秩补偿方面，借鉴了LoRA的思想，冻结了预训练模型的核心参数，仅微调与可用模态和融合过程相关的低秩层。损失函数方面，采用了交叉熵损失函数，并根据具体的任务进行了调整。

🖼️ 关键图片

📊 实验亮点

在SPAWC2021室内定位数据集上，GRAM-MAMBA预训练模型误差低于基线，通过训练不到0.2%的参数，适应缺失模态可带来24.5%的性能提升。在USC-HAD人体活动识别数据集上，GRAM-MAMBA实现了93.55%的F1和93.81%的总体准确率(OA)，优于先前的工作；更新策略在训练不到0.3%的参数的情况下，将F1提高了23%。

🎯 应用场景

GRAM-MAMBA适用于各种物联网多模态感知应用，例如智能家居中的环境感知与控制、智能交通中的车辆状态监测与驾驶辅助、工业自动化中的设备状态监测与故障诊断、以及医疗保健中的人体活动识别与健康监测。该研究成果有助于在资源受限的边缘设备上部署更高效、更鲁棒的多模态感知系统，从而提升物联网应用的智能化水平。

📄 摘要（原文）

Multi-modal fusion is crucial for Internet of Things (IoT) perception, widely deployed in smart homes, intelligent transport, industrial automation, and healthcare. However, existing systems often face challenges: high model complexity hinders deployment in resource-constrained environments, unidirectional modal alignment neglects inter-modal relationships, and robustness suffers when sensor data is missing. These issues impede efficient and robust multimodal perception in real-world IoT settings. To overcome these limitations, we propose GRAM-MAMBA. This framework utilizes the linear-complexity Mamba model for efficient sensor time-series processing, combined with an optimized GRAM matrix strategy for pairwise alignment among modalities, addressing the shortcomings of traditional single-modality alignment. Inspired by Low-Rank Adaptation (LoRA), we introduce an adaptive low-rank layer compensation strategy to handle missing modalities post-training. This strategy freezes the pre-trained model core and irrelevant adaptive layers, fine-tuning only those related to available modalities and the fusion process. Extensive experiments validate GRAM-MAMBA's effectiveness. On the SPAWC2021 indoor positioning dataset, the pre-trained model shows lower error than baselines; adapting to missing modalities yields a 24.5% performance boost by training less than 0.2% of parameters. On the USC-HAD human activity recognition dataset, it achieves 93.55% F1 and 93.81% Overall Accuracy (OA), outperforming prior work; the update strategy increases F1 by 23% while training less than 0.3% of parameters. These results highlight GRAM-MAMBA's potential for achieving efficient and robust multimodal perception in resource-constrained environments.

GRAM-MAMBA: Holistic Feature Alignment for Wireless Perception with Adaptive Low-Rank Compensation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理