TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
作者: Xiaowen Ma, Zhenliang Ni, Xinghao Chen
分类: cs.CV
发布日期: 2024-11-26 (更新: 2025-12-08)
备注: ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
TinyViM:通过频率解耦实现Tiny混合视觉Mamba模型,提升性能并加速推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉Mamba 频率解耦 轻量级模型 混合架构 图像分类 语义分割 目标检测
📋 核心要点
- 现有轻量级Mamba模型在视觉任务中性能不足,无法媲美卷积或Transformer模型。
- 提出TinyViM,通过拉普拉斯混合器进行频率解耦,并采用频率渐变Inception结构,优化高低频信息处理。
- TinyViM在多个视觉任务上超越同等规模模型,吞吐量显著提升,展现了卓越的性能和效率。
📝 摘要(中文)
本文提出了一种名为TinyViM的Tiny混合视觉Mamba模型,旨在解决现有基于Mamba的轻量级骨干网络在计算机视觉任务中性能无法与基于卷积或Transformer的方法相媲美的问题。通过频谱和定量分析,发现Mamba模块在卷积-Mamba混合架构下主要建模低频信息。因此,引入了一种新颖的拉普拉斯混合器,用于频率解耦,仅将低频分量输入到Mamba模块。此外,考虑到特征冗余以及不同阶段对高频细节和低频全局信息的不同需求,引入了频率渐变Inception结构,逐渐减少高频分支的输入维度,从而有效地平衡不同层的高频和低频分量。TinyViM在图像分类、语义分割、目标检测和实例分割等多个下游任务上取得了令人瞩目的性能,优于同等规模的基于卷积、Transformer和Mamba的模型,并且吞吐量比其他基于Mamba的模型高约2-3倍。
🔬 方法详解
问题定义:现有基于Mamba的轻量级视觉骨干网络,虽然具有线性复杂度优势,但在实际应用中,其性能往往无法与同等规模的卷积或Transformer模型相媲美。现有方法简单地修改图像域中的扫描路径,并不能充分发挥视觉Mamba的潜力。因此,如何设计一种高效的轻量级Mamba架构,使其在保持低计算复杂度的同时,能够有效建模图像中的全局上下文信息,是本文要解决的核心问题。
核心思路:本文的核心思路是通过频率解耦的方式,将图像特征分解为高频和低频分量,并针对性地利用Mamba模块建模低频全局信息。作者通过频谱分析发现,在卷积-Mamba混合架构中,Mamba模块主要负责建模低频信息。因此,只将低频分量输入Mamba模块,可以减少冗余计算,提高效率。同时,考虑到不同网络层对高低频信息的需求不同,采用频率渐变Inception结构,动态调整高低频分支的输入维度,以实现更好的性能和效率平衡。
技术框架:TinyViM的整体架构是一个混合模型,结合了卷积和Mamba模块。主要包含以下几个关键模块:1) 卷积Stem:用于提取浅层特征。2) 拉普拉斯混合器:用于将特征分解为高频和低频分量。3) Mamba Block:用于建模低频全局信息。4) 频率渐变Inception:用于动态调整高低频分支的输入维度。整个网络通过堆叠这些模块,逐步提取图像特征,最终用于下游任务。
关键创新:本文最重要的技术创新点在于频率解耦和频率渐变Inception。频率解耦通过拉普拉斯混合器将特征分解为高低频分量,使得Mamba模块能够更专注于建模低频全局信息,从而提高效率。频率渐变Inception则根据网络深度动态调整高低频分支的输入维度,实现了更好的性能和效率平衡。与现有方法相比,本文的方法更加关注Mamba模块在混合架构中的作用,并针对性地进行了优化。
关键设计:拉普拉斯混合器采用可学习的卷积核来提取高频和低频分量。频率渐变Inception通过逐渐减少高频分支的输入维度来实现高低频信息的平衡。具体的实现方式是,在高层网络中,高频分支的输入维度会逐渐减小,而低频分支的输入维度则保持不变。损失函数方面,采用标准的交叉熵损失函数进行图像分类任务的训练。
🖼️ 关键图片
📊 实验亮点
TinyViM在多个下游任务上取得了显著的性能提升。在ImageNet-1K图像分类任务中,TinyViM在相似参数规模下,超越了Convolution、Transformer和Mamba-based模型。此外,TinyViM的吞吐量比其他Mamba-based模型高约2-3倍,证明了其高效性。代码已开源。
🎯 应用场景
TinyViM具有广泛的应用前景,可应用于移动设备上的图像识别、目标检测、图像分割等任务。其轻量级的设计和高效的推理速度使其非常适合资源受限的场景。未来,TinyViM有望在自动驾驶、智能安防、医疗影像分析等领域发挥重要作用,推动相关技术的发展。
📄 摘要(原文)
Mamba has shown great potential for computer vision due to its linear complexity in modeling the global context with respect to the input length. However, existing lightweight Mamba-based backbones cannot demonstrate performance that matches Convolution or Transformer-based methods. By observing, we find that simply modifying the scanning path in the image domain is not conducive to fully exploiting the potential of vision Mamba. In this paper, we first perform comprehensive spectral and quantitative analyses, and verify that the Mamba block mainly models low-frequency information under Convolution-Mamba hybrid architecture. Based on the analyses, we introduce a novel Laplace mixer to decouple the features in terms of frequency and input only the low-frequency components into the Mamba block. In addition, considering the redundancy of the features and the different requirements for high-frequency details and low-frequency global information at different stages, we introduce a frequency ramp inception, i.e., gradually reduce the input dimensions of the high-frequency branches, so as to efficiently trade-off the high-frequency and low-frequency components at different layers. By integrating mobile-friendly convolution and efficient Laplace mixer, we build a series of tiny hybrid vision Mamba called TinyViM. The proposed TinyViM achieves impressive performance on several downstream tasks including image classification, semantic segmentation, object detection and instance segmentation. In particular, TinyViM outperforms Convolution, Transformer and Mamba-based models with similar scales, and the throughput is about 2-3 times higher than that of other Mamba-based models. Code is available at https://github.com/xwmaxwma/TinyViM.