Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation
作者: Rongzhao He, Weihao Zheng, Leilei Zhao, Ying Wang, Dalin Zhu, Dan Wu, Bin Hu
分类: cs.CV, cs.AI
发布日期: 2025-01-24 (更新: 2025-02-20)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Surface Vision Mamba,用于高效球面流形表示和神经发育表型回归。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 球面流形表示 Vision Mamba 神经发育表型回归 几何深度学习 状态空间模型
📋 核心要点
- 基于注意力机制的方法在球面皮层表面建模长程依赖关系方面表现出色,但推理时间和内存需求高,限制了其在大数据集上的应用。
- Surface Vision Mamba (SiM) 将 Vision Mamba 引入球面表面,通过将球面数据表示为三角形patch序列,实现高效的球面流形表示。
- 实验表明,SiM 在神经发育表型回归任务中优于现有方法,推理速度提升显著,内存消耗大幅降低,并能有效识别认知发展模式。
📝 摘要(中文)
本文提出了一种名为Surface Vision Mamba (SiM) 的新方法,它将无注意力机制的Vision Mamba (Vim) 引入球面表面,为分析球面流形上的数据提供了一种领域无关的架构。该方法通过将球面数据表示为从细分后的二十面体导出的三角形patch序列来实现表面patching。SiM在多个使用新生儿大脑皮层表面指标的神经发育表型回归任务中进行了评估。实验结果表明,SiM优于基于注意力机制和基于几何深度学习(GDL)的方法,在Ico-4网格划分下,推理速度提高了4.8倍,内存消耗降低了91.7%(与Surface Vision Transformer (SiT) 相比)。敏感性分析进一步强调了SiM在识别微妙认知发展模式方面的潜力。代码已开源。
🔬 方法详解
问题定义:现有基于注意力机制的方法,如Surface Vision Transformer (SiT),在处理球面皮层表面数据时,虽然能有效建模长程依赖关系,但计算复杂度和内存占用较高,难以应用于大规模数据集和资源受限的场景。传统几何深度学习(GDL)方法在建模能力上有所不足。
核心思路:论文的核心思路是将Vision Mamba (Vim) 这种基于状态空间模型(SSM)的、无注意力机制的架构引入到球面表面分析中。Vim在计算机视觉领域展现了高效建模长程依赖关系的能力,且计算复杂度较低。通过将球面数据转化为三角形patch序列,可以利用Vim进行序列建模,从而避免了注意力机制带来的高计算成本。
技术框架:SiM的整体架构包括以下几个主要步骤:1) 球面网格划分:使用细分后的二十面体(Icosahedron)生成三角形网格,将球面表面划分为多个三角形patch。2) 表面Patching:将每个三角形patch视为一个序列元素,从而将球面数据表示为一个序列。3) Vision Mamba编码:使用Vision Mamba模型对patch序列进行编码,提取特征。4) 表型回归:将提取的特征用于神经发育表型回归任务。
关键创新:SiM最重要的技术创新点在于将Vision Mamba成功应用于球面流形数据的分析。与传统的基于注意力机制的方法相比,SiM避免了注意力计算,从而显著降低了计算复杂度和内存占用。此外,SiM是一种领域无关的架构,可以应用于其他球面流形数据的分析任务。
关键设计:SiM的关键设计包括:1) 二十面体细分级别:选择合适的细分级别,以平衡patch的数量和大小。论文中使用了Ico-4网格划分。2) Vision Mamba模型配置:选择合适的Vision Mamba模型参数,如层数、隐藏层大小等,以获得最佳性能。3) 损失函数:使用均方误差(MSE)作为回归任务的损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Surface Vision Mamba (SiM) 在神经发育表型回归任务中优于基于注意力机制的 Surface Vision Transformer (SiT) 和基于几何深度学习(GDL)的方法。在 Ico-4 网格划分下,SiM 的推理速度比 SiT 提高了 4.8 倍,内存消耗降低了 91.7%。此外,敏感性分析表明 SiM 能够有效识别微妙的认知发展模式。
🎯 应用场景
Surface Vision Mamba (SiM) 在神经影像分析领域具有广泛的应用前景,可用于研究大脑发育、神经退行性疾病等。该方法能够高效地处理大规模的脑部扫描数据,并识别出与认知功能相关的细微结构变化。此外,SiM 的领域无关性使其能够应用于其他球面流形数据的分析,例如地球科学、天文学等。
📄 摘要(原文)
Attention-based methods have demonstrated exceptional performance in modelling long-range dependencies on spherical cortical surfaces, surpassing traditional Geometric Deep Learning (GDL) models. However, their extensive inference time and high memory demands pose challenges for application to large datasets with limited computing resources. Inspired by the state space model in computer vision, we introduce the attention-free Vision Mamba (Vim) to spherical surfaces, presenting a domain-agnostic architecture for analyzing data on spherical manifolds. Our method achieves surface patching by representing spherical data as a sequence of triangular patches derived from a subdivided icosphere. The proposed Surface Vision Mamba (SiM) is evaluated on multiple neurodevelopmental phenotype regression tasks using cortical surface metrics from neonatal brains. Experimental results demonstrate that SiM outperforms both attention- and GDL-based methods, delivering 4.8 times faster inference and achieving 91.7% lower memory consumption compared to the Surface Vision Transformer (SiT) under the Ico-4 grid partitioning. Sensitivity analysis further underscores the potential of SiM to identify subtle cognitive developmental patterns. The code is available at https://github.com/Rongzhao-He/surface-vision-mamba.