Modality-Aware Zero-Shot Pruning and Sparse Attention for Efficient Multimodal Edge Inference
作者: Yueyuan Sui, Payal Mohapatra, Doğaç Eldenk, Haodong Yang, Yiting Zhang, Haoyan Zhang, Qi Zhu, Stephen Xia
分类: cs.LG
发布日期: 2026-04-10
💡 一句话要点
SentryFuse框架通过模态感知零样本剪枝和稀疏注意力实现高效多模态边缘推理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 边缘计算 模型剪枝 零样本学习 稀疏注意力 模态感知 异构硬件
📋 核心要点
- 现有剪枝方法在边缘设备多模态应用中,对传感器缺失不敏感,且需要耗能的微调。
- SentryFuse框架通过模态条件重要性学习和稀疏注意力机制,实现零样本剪枝和加速。
- 实验表明,SentryFuse在精度、内存和延迟方面均优于现有方法,尤其在模态缺失情况下。
📝 摘要(中文)
边缘设备上日益增长的多模态感知应用需要在波动的功耗预算和不可预测的传感器掉线情况下保持准确性。现有的剪枝方法在这些条件下表现不佳:它们通常需要在压缩后进行微调,消耗超过部署能量的10倍,并且它们分配的静态重要性分数对哪些传感器存在是盲目的。我们提出了SentryFuse框架,通过两个关键组件共同解决这两个挑战。首先,SentryGate通过一阶显著性监督在训练期间学习模态条件下的重要性分数,然后在部署时剪枝注意力头和前馈通道,而无需微调。其次,SentryAttend用稀疏分组查询注意力取代了密集自注意力(当代多模态架构中的一个关键瓶颈),从而在三种不同的多模态架构中实现了15%的GFLOPs净减少。在三个应用和多模态骨干网络中,SentryGate比最强的剪枝基线平均提高了12.7%的准确率,在模态dropout条件下提高了高达18%。总之,SentryFuse在无需进一步微调的情况下,将内存减少了28.2%,并将延迟降低了高达1.63倍,从而将模态感知零样本压缩确立为异构边缘硬件上实现多模态智能的实用途径。
🔬 方法详解
问题定义:论文旨在解决多模态边缘设备推理中,现有剪枝方法对模态缺失的鲁棒性差,且需要大量微调带来的高能耗问题。现有方法无法根据当前可用的模态动态调整模型结构,导致性能下降。同时,微调过程消耗大量能量,不适用于资源受限的边缘设备。
核心思路:论文的核心思路是学习模态条件下的重要性分数,并在部署时进行零样本剪枝,即无需微调。此外,通过引入稀疏注意力机制,降低计算复杂度,进一步提升推理效率。这种设计使得模型能够根据当前可用的模态动态调整,并降低了部署成本。
技术框架:SentryFuse框架包含两个主要组件:SentryGate和SentryAttend。SentryGate负责学习模态条件下的重要性分数,并进行零样本剪枝。SentryAttend则用稀疏分组查询注意力替换了传统的密集自注意力。整体流程包括:首先,在训练阶段,SentryGate学习模态条件下的重要性分数;然后,在部署阶段,SentryGate根据学习到的重要性分数进行剪枝,SentryAttend则使用稀疏注意力进行推理。
关键创新:论文的关键创新在于模态感知的零样本剪枝方法。与现有方法不同,SentryGate能够根据当前可用的模态动态调整模型结构,无需微调即可实现高性能。此外,稀疏分组查询注意力的引入,进一步降低了计算复杂度,提升了推理效率。
关键设计:SentryGate使用一阶显著性监督来学习模态条件下的重要性分数。具体来说,通过计算模型输出对每个模态输入的梯度,得到模态的重要性。然后,根据这些重要性分数,对注意力头和前馈通道进行剪枝。SentryAttend使用分组查询注意力,将查询分成多个组,并在每个组内进行注意力计算,从而降低了计算复杂度。具体的组数和剪枝比例等参数需要根据具体应用进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SentryGate在三个应用和多模态骨干网络中,比最强的剪枝基线平均提高了12.7%的准确率,在模态dropout条件下提高了高达18%。SentryFuse整体上在无需进一步微调的情况下,将内存减少了28.2%,并将延迟降低了高达1.63倍。这些结果验证了该框架在多模态边缘推理中的有效性。
🎯 应用场景
该研究成果可应用于各种多模态边缘计算场景,例如自动驾驶、智能监控、机器人导航和可穿戴设备。通过降低模型大小和推理延迟,SentryFuse框架能够使这些应用在资源受限的边缘设备上更高效地运行,并提高在传感器故障或数据缺失情况下的鲁棒性。这有助于推动多模态人工智能在实际应用中的普及。
📄 摘要(原文)
Edge devices increasingly run multimodal sensing pipelines that must remain accurate despite fluctuating power budgets and unpredictable sensor dropout. Existing pruning methods fail under these conditions: they generally require fine-tuning after compression, consuming over $10\times$ the deployment energy, and they assign static importance scores that are blind to which sensors are present. We present the SentryFuse framework, which addresses both challenges jointly through two key components. First, SentryGate learns modality-conditioned importance scores during training via first-order saliency supervision and then prunes attention heads and feed-forward channels at deployment without fine-tuning. Second, SentryAttend replaces dense self-attention, a key bottleneck in contemporary multimodal architectures, with sparse grouped-query attention, yielding a net 15% reduction in GFLOPs across three different multimodal architectures. Across three applications and multimodal backbones, SentryGate achieves a 12.7% average accuracy improvement over the strongest pruning baseline, and upto to 18% under modality dropout conditions. Together, SentryFuse reduces memory by 28.2% and lowers latency by up to $1.63\times$ without further fine-tuning, establishing modality-aware zero-shot compression as a practical path to multimodal intelligence on heterogeneous edge hardware.