ST-FlowNet: An Efficient Spiking Neural Network for Event-Based Optical Flow Estimation

📄 arXiv: 2503.10195v2 📥 PDF

作者: Hongze Sun, Jun Wang, Wuque Cai, Duo Chen, Qianqian Liao, Jiayi He, Yan Cui, Dezhong Yao, Daqing Guo

分类: cs.CV, cs.NE, q-bio.NC

发布日期: 2025-03-13 (更新: 2025-04-27)

备注: 13 pages, 6 figures, 6 tables; This work has been submitted to Neural Networks for possible publication


💡 一句话要点

提出ST-FlowNet,一种高效的脉冲神经网络,用于事件相机光流估计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 光流估计 脉冲神经网络 神经形态视觉 ConvGRU ANN-to-SNN转换 BISNN 低功耗视觉

📋 核心要点

  1. 现有SNN光流估计方法性能受限,难以应用于实际场景,主要挑战在于如何有效利用时空信息和克服SNN训练难题。
  2. ST-FlowNet通过集成ConvGRU模块增强跨模态特征,实现光流时间对齐,从而提升网络捕获复杂运动动态的能力。
  3. 提出BISNN方法,从预训练ANN导出SNN模型,简化生物参数选择,增强SNN在光流估计中的鲁棒性,并在多个数据集上超越现有方法。

📝 摘要(中文)

本文提出了一种新颖的神经网络架构ST-FlowNet,专门用于从事件数据中估计光流,旨在解决脉冲神经网络(SNN)在事件相机光流估计任务中性能受限的问题。ST-FlowNet集成了ConvGRU模块,以促进跨模态特征增强和预测光流的时间对齐,从而提高网络捕获复杂运动动态的能力。此外,为了克服训练SNN相关的挑战,本文提出了一种新方法,通过ANN-to-SNN转换或提出的BISNN方法,从预训练的人工神经网络(ANN)中导出SNN模型。BISNN方法减轻了生物参数选择的复杂性,进一步增强了SNN在光流估计任务中的鲁棒性。在三个基准事件数据集上的大量评估表明,基于SNN的ST-FlowNet模型优于最先进的方法,在各种动态视觉场景中提供卓越的精确光流估计性能。此外,还强调了SNN模型固有的能源效率,为其在实际部署中建立了引人注目的优势。总而言之,本文提出了一种使用SNN和事件数据进行光流估计的新框架,有助于神经形态视觉应用的进步。

🔬 方法详解

问题定义:论文旨在解决事件相机光流估计问题,现有SNN方法在性能上存在瓶颈,难以充分利用事件数据的时空特性,且SNN的训练过程复杂,生物参数选择困难,导致模型鲁棒性不足。

核心思路:论文的核心思路是设计一种高效的SNN架构ST-FlowNet,并提出一种简化的ANN-to-SNN转换方法BISNN,以提升SNN在事件相机光流估计任务中的性能和鲁棒性。通过ConvGRU模块增强特征表达,利用ANN预训练的优势简化SNN训练。

技术框架:ST-FlowNet的整体架构包含事件数据输入、特征提取、ConvGRU模块进行时空信息融合、光流预测等阶段。首先,事件数据被输入到网络中进行特征提取。然后,利用ConvGRU模块对提取的特征进行跨模态特征增强和时间对齐。最后,网络输出预测的光流。BISNN方法则用于将预训练的ANN模型转换为SNN模型。

关键创新:论文的关键创新在于:1) 提出了ST-FlowNet架构,利用ConvGRU模块有效融合时空信息,提升光流估计精度;2) 提出了BISNN方法,简化了ANN-to-SNN转换过程,避免了复杂的生物参数选择,增强了SNN的鲁棒性。

关键设计:ConvGRU模块的具体结构和参数设置(未知)。BISNN方法的具体转换规则和参数初始化策略(未知)。损失函数的设计(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于SNN的ST-FlowNet模型在三个基准事件数据集上均优于现有最先进方法,实现了更精确的光流估计。论文强调了SNN模型固有的能源效率,使其在实际部署中具有显著优势。具体性能提升数据(未知)。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、无人机等领域,尤其是在低功耗、高动态范围的视觉场景下,事件相机结合SNN的光流估计方法具有显著优势。未来,该技术有望推动神经形态视觉在嵌入式系统和边缘计算设备上的广泛应用。

📄 摘要(原文)

Spiking Neural Networks (SNNs) have emerged as a promising tool for event-based optical flow estimation tasks due to their ability to leverage spatio-temporal information and low-power capabilities. However, the performance of SNN models is often constrained, limiting their application in real-world scenarios. In this work, we address this gap by proposing a novel neural network architecture, ST-FlowNet, specifically tailored for optical flow estimation from event-based data. The ST-FlowNet architecture integrates ConvGRU modules to facilitate cross-modal feature augmentation and temporal alignment of the predicted optical flow, improving the network's ability to capture complex motion dynamics. Additionally, to overcome the challenges associated with training SNNs, we introduce a novel approach to derive SNN models from pre-trained artificial neural networks (ANNs) through ANN-to-SNN conversion or our proposed BISNN method. Notably, the BISNN method alleviates the complexities involved in biological parameter selection, further enhancing the robustness of SNNs in optical flow estimation tasks. Extensive evaluations on three benchmark event-based datasets demonstrate that the SNN-based ST-FlowNet model outperforms state-of-the-art methods, delivering superior performance in accurate optical flow estimation across a diverse range of dynamic visual scenes. Furthermore, the inherent energy efficiency of SNN models is highlighted, establishing a compelling advantage for their practical deployment. Overall, our work presents a novel framework for optical flow estimation using SNNs and event-based data, contributing to the advancement of neuromorphic vision applications.