Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition
作者: Huafeng Qin, Yuming Fu, Jing Chen, Mounim A. El-Yacoubi, Xinbo Gao, Feng Xi
分类: cs.CV
发布日期: 2024-08-11 (更新: 2024-09-10)
💡 一句话要点
提出基于神经架构搜索的全局-局部Vision Mamba用于掌纹识别
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 掌纹识别 Vision Mamba 神经架构搜索 全局-局部网络 特征融合
📋 核心要点
- 现有Vision Mamba模型在掌纹识别中存在局部特征细节丢失的问题,且人工设计网络架构耗时易错。
- 提出全局-局部Vision Mamba(GLVM)混合网络,结合多头Mamba和ConvMamba块,显式学习局部相关性和全局依赖。
- 设计全局-局部交替神经架构搜索(GLNAS)方法,自动搜索最优网络结构,提升掌纹识别性能。
📝 摘要(中文)
掌纹识别因其高安全性、高隐私性和活体识别等优点而受到越来越多的关注。近年来,深度学习模型,例如Mamba,已显示出强大的特征表示能力和线性计算复杂度,并成功应用于视觉任务。然而,Vision Mamba虽然可以捕获长距离特征依赖关系,但会降低局部特征的细节。此外,手动设计基于人类先验知识的Mamba架构非常耗时且容易出错。本文首先提出了一种混合网络结构,名为全局-局部Vision Mamba(GLVM),以显式地学习图像中的局部相关性和token之间的全局依赖关系,用于掌纹特征表示。其次,我们设计了一个多头Mamba来学习不同方向的依赖关系,从而提高Vision Mamba的特征表示能力。第三,为了学习互补特征,我们提出了一个ConvMamba块,该块由三个分支组成,分别命名为多头Mamba分支(MHMamba)、特征迭代单元分支(FIU)和卷积神经网络(CNN)分支,其中特征迭代单元分支旨在融合卷积局部特征与基于Mamba的全局表示。最后,提出了一种全局-局部交替神经架构搜索(GLNAS)方法,通过进化算法交替搜索GLVM的最佳架构,从而提高掌纹识别任务的识别性能。我们在三个公共掌纹数据库上进行了严格的实验来评估性能。实验结果表明,该方法优于代表性方法,并实现了最先进的识别精度。
🔬 方法详解
问题定义:论文旨在解决掌纹识别中,现有Vision Mamba模型无法有效兼顾全局依赖和局部细节的问题。现有方法要么侧重于全局特征提取而忽略局部信息,要么依赖人工设计网络结构,效率低且容易出错。
核心思路:论文的核心思路是设计一种混合网络结构,同时利用Mamba模型的全局建模能力和卷积神经网络的局部特征提取能力,并通过神经架构搜索自动寻找最优的网络结构。这种全局-局部结合的方式旨在更全面地表示掌纹特征,提升识别精度。
技术框架:整体框架包含以下几个主要模块:1) 全局-局部Vision Mamba (GLVM) 混合网络,作为基础特征提取器;2) 多头Mamba模块,用于学习不同方向的依赖关系;3) ConvMamba块,包含多头Mamba分支、特征迭代单元分支和卷积神经网络分支,用于融合全局和局部特征;4) 全局-局部交替神经架构搜索 (GLNAS) 方法,使用进化算法搜索GLVM的最佳架构。
关键创新:论文的关键创新在于:1) 提出全局-局部混合网络结构GLVM,有效结合Mamba的全局建模能力和CNN的局部特征提取能力;2) 设计ConvMamba块,通过特征迭代单元分支融合卷积局部特征与Mamba全局表示;3) 提出全局-局部交替神经架构搜索方法GLNAS,自动搜索最优网络结构,避免人工设计的局限性。与现有方法相比,该方法能够更全面地提取掌纹特征,并自动优化网络结构。
关键设计:ConvMamba块包含三个分支:MHMamba分支使用多头Mamba学习全局依赖,FIU分支融合卷积局部特征与Mamba全局表示,CNN分支提取局部特征。GLNAS使用进化算法搜索GLVM的结构,交替搜索全局和局部模块的配置。具体的参数设置和损失函数等细节在论文中未详细说明。
🖼️ 关键图片
📊 实验亮点
论文在三个公开掌纹数据库上进行了实验,结果表明提出的方法优于现有代表性方法,并取得了state-of-the-art的识别精度。具体的性能数据和提升幅度在摘要中未给出,需要在论文正文中查找。
🎯 应用场景
该研究成果可应用于各种需要高安全性和隐私性的身份认证场景,例如门禁系统、金融支付、医疗记录访问控制等。通过提高掌纹识别的准确性和鲁棒性,可以有效防止身份欺诈和信息泄露,具有重要的实际应用价值和广阔的市场前景。
📄 摘要(原文)
Due to the advantages such as high security, high privacy, and liveness recognition, vein recognition has been received more and more attention in past years. Recently, deep learning models, e.g., Mamba has shown robust feature representation with linear computational complexity and successfully applied for visual tasks. However, vision Manba can capture long-distance feature dependencies but unfortunately deteriorate local feature details. Besides, manually designing a Mamba architecture based on human priori knowledge is very time-consuming and error-prone. In this paper, first, we propose a hybrid network structure named Global-local Vision Mamba (GLVM), to learn the local correlations in images explicitly and global dependencies among tokens for vein feature representation. Secondly, we design a Multi-head Mamba to learn the dependencies along different directions, so as to improve the feature representation ability of vision Mamba. Thirdly, to learn the complementary features, we propose a ConvMamba block consisting of three branches, named Multi-head Mamba branch (MHMamba), Feature Iteration Unit branch (FIU), and Convolutional Neural Network (CNN) branch, where the Feature Iteration Unit branch aims to fuse convolutional local features with Mamba-based global representations. Finally, a Globallocal Alternate Neural Architecture Search (GLNAS) method is proposed to search the optimal architecture of GLVM alternately with the evolutionary algorithm, thereby improving the recognition performance for vein recognition tasks. We conduct rigorous experiments on three public palm-vein databases to estimate the performance. The experimental results demonstrate that the proposed method outperforms the representative approaches and achieves state-of-the-art recognition accuracy.