Vision Mamba Distillation for Low-resolution Fine-grained Image Classification
作者: Yao Chen, Jiabao Wang, Peichao Wang, Rui Zhang, Yang Li
分类: cs.CV
发布日期: 2024-11-27
🔗 代码/项目: GITHUB
💡 一句话要点
提出Vision Mamba蒸馏方法以提升低分辨率细粒度图像分类性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 低分辨率图像分类 知识蒸馏 超分辨率 细粒度分类 轻量级网络 Mamba模型 嵌入式设备 计算机视觉
📋 核心要点
- 现有的低分辨率细粒度图像分类方法在参数数量和计算复杂度上存在显著增加的问题,限制了其在实际应用中的可行性。
- 本文提出的ViMD方法通过设计轻量级的SRVM-Net和多层Mamba知识蒸馏损失,旨在提高低分辨率图像分类的效率和准确性。
- 在七个公共数据集上的实验结果显示,ViMD在准确性上超越了现有方法,同时在参数和计算量上显著减少,展现出更好的应用潜力。
📝 摘要(中文)
低分辨率细粒度图像分类近年来取得了显著进展,主要得益于超分辨率技术和知识蒸馏方法。然而,这些方法导致模型参数数量和计算复杂度呈指数级增加。为了解决这一问题,本文提出了一种Vision Mamba蒸馏(ViMD)方法,以提高低分辨率细粒度图像分类的有效性和效率。具体而言,提出了一种轻量级的超分辨率视觉Mamba分类网络(SRVM-Net),通过重新设计分类子网络以增强视觉特征提取能力。此外,设计了一种新颖的多层Mamba知识蒸馏损失,能够将从高分辨率视觉Mamba分类网络(HRVM-Net)获得的先验知识转移到SRVM-Net。大量在七个公共细粒度分类数据集上的实验表明,ViMD达到了新的最先进性能,同时在参数和FLOPs上优于类似方法,更适合嵌入式设备应用。
🔬 方法详解
问题定义:本文旨在解决低分辨率细粒度图像分类中模型参数和计算复杂度急剧增加的问题,现有方法在这方面表现不佳,限制了其在嵌入式设备上的应用。
核心思路:ViMD方法通过引入轻量级的SRVM-Net和多层Mamba知识蒸馏损失,旨在在保持高准确度的同时,降低模型的复杂度和计算需求。
技术框架:整体架构包括一个轻量级的超分辨率视觉Mamba分类网络(SRVM-Net)作为学生网络,以及一个高分辨率视觉Mamba分类网络(HRVM-Net)作为教师网络。通过多层知识蒸馏损失,SRVM-Net能够有效地学习HRVM-Net的知识。
关键创新:最重要的创新在于设计了多层Mamba知识蒸馏损失,这种方法能够更有效地转移知识,提升学生网络的性能,同时保持较低的计算复杂度。
关键设计:在网络结构上,SRVM-Net通过重新设计分类子网络以增强特征提取能力,损失函数则采用了多层蒸馏损失,确保了知识的有效传递。
🖼️ 关键图片
📊 实验亮点
在七个公共细粒度分类数据集上的实验结果表明,ViMD方法在准确性上达到了新的最先进水平,同时在参数数量和FLOPs上显著低于现有方法,展示了在嵌入式设备应用中的优势。
🎯 应用场景
该研究的潜在应用领域包括智能监控、无人驾驶、医疗影像分析等需要在低分辨率条件下进行细粒度分类的场景。通过降低模型复杂度,ViMD方法能够在资源受限的嵌入式设备上实现高效的图像分类,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Low-resolution fine-grained image classification has recently made significant progress, largely thanks to the super-resolution techniques and knowledge distillation methods. However, these approaches lead to an exponential increase in the number of parameters and computational complexity of models. In order to solve this problem, in this letter, we propose a Vision Mamba Distillation (ViMD) approach to enhance the effectiveness and efficiency of low-resolution fine-grained image classification. Concretely, a lightweight super-resolution vision Mamba classification network (SRVM-Net) is proposed to improve its capability for extracting visual features by redesigning the classification sub-network with Mamba modeling. Moreover, we design a novel multi-level Mamba knowledge distillation loss boosting the performance, which can transfer prior knowledge obtained from a High-resolution Vision Mamba classification Network (HRVM-Net) as a teacher into the proposed SRVM-Net as a student. Extensive experiments on seven public fine-grained classification datasets related to benchmarks confirm our ViMD achieves a new state-of-the-art performance. While having higher accuracy, ViMD outperforms similar methods with fewer parameters and FLOPs, which is more suitable for embedded device applications. Code is available at https://github.com/boa2004plaust/ViMD.