AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection
作者: Zizhao Chen, Yeqiang Qian, Xiaoxiao Yang, Chunxiang Wang, Ming Yang
分类: cs.CV
发布日期: 2024-05-21
🔗 代码/项目: GITHUB
💡 一句话要点
提出AMFD框架,通过自适应多模态融合蒸馏提升多光谱行人检测效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多光谱行人检测 知识蒸馏 自适应融合 模态对齐 注意力机制
📋 核心要点
- 双流多光谱行人检测网络推理速度慢,限制了其在嵌入式设备上的应用。
- AMFD框架通过自适应模态融合蒸馏,使学生网络能够学习教师网络的多模态特征。
- 实验表明,AMFD在多个数据集上优于现有方法,降低了漏检率并提高了平均精度。
📝 摘要(中文)
多光谱行人检测在复杂光照条件下表现出良好的性能。然而,目前主流的双流网络结构需要为多模态数据设置两个独立的分支,导致推理时间几乎是单流网络的两倍。为了解决这一问题,本文提出自适应模态融合蒸馏(AMFD)框架,充分利用教师网络原始模态特征进行知识蒸馏。具体而言,采用模态提取对齐(MEA)模块,结合焦点和全局注意力机制,为学生网络生成学习权重,使其能够学习到最优的融合策略,而无需额外的特征融合模块。此外,本文还提出了一个具有良好对齐性的多光谱数据集SMOD。在KAIST、LLVIP和SMOD数据集上的大量实验验证了AMFD的有效性,结果表明,该方法在降低log-average Miss Rate和提高mean Average Precision方面均优于现有方法。
🔬 方法详解
问题定义:多光谱行人检测旨在利用可见光和红外图像提高在各种光照条件下的行人检测性能。然而,现有的双流网络结构,即分别对不同模态的图像提取特征再进行融合,计算量大,推理速度慢,难以部署在算力受限的嵌入式设备上。知识蒸馏是一种有效的模型压缩方法,但传统方法通常只关注融合后的特征,忽略了原始多模态特征中包含的大量信息,限制了学生网络的性能。
核心思路:本文的核心思路是通过自适应模态融合蒸馏,让学生网络能够充分学习教师网络中原始的多模态特征。通过引入模态提取对齐(MEA)模块,学生网络可以学习到教师网络不同模态特征的重要性,并自适应地调整融合策略。这种方法避免了学生网络直接模仿教师网络的融合方式,使其能够探索更优的融合方式,从而提升性能。
技术框架:AMFD框架主要包含一个教师网络和一个学生网络。教师网络是一个预训练好的双流多光谱行人检测模型。学生网络是一个单流网络,旨在学习教师网络的知识。MEA模块是AMFD框架的关键组成部分,它接收教师网络的多模态特征和学生网络的特征作为输入,输出一个权重矩阵,用于指导学生网络学习不同模态特征的重要性。整个训练过程通过最小化学生网络的预测结果与真实标签之间的损失,以及学生网络特征与教师网络特征之间的蒸馏损失来进行优化。
关键创新:AMFD的关键创新在于提出了MEA模块,该模块能够自适应地学习不同模态特征的重要性,并将其传递给学生网络。与传统的知识蒸馏方法相比,AMFD能够更充分地利用教师网络的多模态信息,从而提升学生网络的性能。此外,MEA模块允许学生网络学习独立于教师网络的融合策略,使其能够探索更优的融合方式。
关键设计:MEA模块包含焦点注意力机制和全局注意力机制。焦点注意力机制用于关注每个模态特征中最重要的区域,全局注意力机制用于关注不同模态特征之间的关系。MEA模块的输出是一个权重矩阵,该矩阵用于对学生网络的特征进行加权,从而使学生网络能够学习到不同模态特征的重要性。损失函数包括检测损失和蒸馏损失。检测损失用于衡量学生网络的预测结果与真实标签之间的差距,蒸馏损失用于衡量学生网络特征与教师网络特征之间的差距。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AMFD在KAIST、LLVIP和SMOD数据集上均取得了显著的性能提升。例如,在KAIST数据集上,AMFD在降低log-average Miss Rate方面优于现有方法,并且在SMOD数据集上取得了state-of-the-art的结果。这些结果验证了AMFD框架的有效性和优越性。
🎯 应用场景
该研究成果可应用于自动驾驶、智能监控、机器人等领域,尤其是在光照条件复杂或恶劣的环境下,能够有效提高行人检测的准确性和效率。通过模型压缩,该方法有助于在算力受限的嵌入式设备上部署高性能的多光谱行人检测系统,加速相关技术的落地应用。
📄 摘要(原文)
Multispectral pedestrian detection has been shown to be effective in improving performance within complex illumination scenarios. However, prevalent double-stream networks in multispectral detection employ two separate feature extraction branches for multi-modal data, leading to nearly double the inference time compared to single-stream networks utilizing only one feature extraction branch. This increased inference time has hindered the widespread employment of multispectral pedestrian detection in embedded devices for autonomous systems. To address this limitation, various knowledge distillation methods have been proposed. However, traditional distillation methods focus only on the fusion features and ignore the large amount of information in the original multi-modal features, thereby restricting the student network's performance. To tackle the challenge, we introduce the Adaptive Modal Fusion Distillation (AMFD) framework, which can fully utilize the original modal features of the teacher network. Specifically, a Modal Extraction Alignment (MEA) module is utilized to derive learning weights for student networks, integrating focal and global attention mechanisms. This methodology enables the student network to acquire optimal fusion strategies independent from that of teacher network without necessitating an additional feature fusion module. Furthermore, we present the SMOD dataset, a well-aligned challenging multispectral dataset for detection. Extensive experiments on the challenging KAIST, LLVIP and SMOD datasets are conducted to validate the effectiveness of AMFD. The results demonstrate that our method outperforms existing state-of-the-art methods in both reducing log-average Miss Rate and improving mean Average Precision. The code is available at https://github.com/bigD233/AMFD.git.