Neuromorphic spatiotemporal optical flow: Enabling ultrafast visual perception beyond human capabilities

📄 arXiv: 2409.15345v2 📥 PDF

作者: Shengbo Wang, Jingwen Zhao, Tongming Pu, Liangbing Zhao, Xiaoyu Guo, Yue Cheng, Cong Li, Weihao Ma, Chenyu Tang, Zhenyu Xu, Ningli Wang, Luigi Occhipinti, Arokia Nathan, Ravinder Dahiya, Huaqiang Wu, Li Tao, Shuo Gao

分类: cs.CV, cs.RO

发布日期: 2024-09-10 (更新: 2025-01-30)

备注: 22 pages, 6 figures


💡 一句话要点

提出神经形态时空光流方法,实现超越人类的超快视觉感知

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 神经形态计算 光流 时空信息处理 突触晶体管 超快视觉感知 机器人 二维材料

📋 核心要点

  1. 传统光流算法在基准数据集上表现出色,但在实际应用中存在不可接受的时间延迟,限制了其应用。
  2. 该论文提出一种神经形态光流方法,通过在突触晶体管阵列中编码时间信息来辅助空间运动分析,加速处理。
  3. 实验结果表明,该系统速度提升400%,超越现有算法,并在保持或提高准确性的同时,经常超越人类水平的表现。

📝 摘要(中文)

本文提出了一种神经形态光流方法,通过在突触晶体管阵列中直接编码时间信息来辅助空间运动分析,从而解决传统光流算法在实际部署中存在的延迟瓶颈问题。与传统的仅基于空间的光流方法相比,该方法利用嵌入在二维浮栅突触晶体管中的时间信息,提供运动信息的时空一致性,并能在1-2毫秒内快速识别感兴趣区域。这种选择性过滤视觉输入的方式能够实现更快的速度计算和任务执行。该突触晶体管具有高频响应、鲁棒的非易失性和优异的耐久性,从而实现稳健的视觉处理。软件基准测试表明,该系统性能优于现有算法,速度提升400%,并在利用嵌入的时间先验信息的同时,保持或提高了准确性,经常超越人类水平的表现。

🔬 方法详解

问题定义:传统光流算法虽然在精度上有所提升,但在实际应用中,由于计算复杂度高,导致处理速度慢,存在显著的时间延迟(约0.6秒/帧,是人类处理速度的4倍),无法满足机器人等实时性要求高的应用场景。因此,如何降低光流计算的延迟,实现超快视觉感知是本文要解决的核心问题。

核心思路:本文的核心思路是借鉴生物视觉系统,将时间信息直接编码到硬件层面,具体来说,是利用突触晶体管阵列来捕捉和处理时间信息,从而辅助空间运动分析。通过这种时空联合处理的方式,可以快速识别感兴趣区域,并加速后续的速度计算和任务执行。

技术框架:该神经形态光流系统的整体框架包括:1)利用二维浮栅突触晶体管阵列进行时间信息的编码和存储;2)基于编码的时间信息,快速识别视觉场景中的感兴趣区域;3)对感兴趣区域进行选择性过滤,以减少后续计算量;4)利用优化的光流算法,计算运动矢量。整个流程的关键在于利用硬件加速时间信息的处理,从而降低整体延迟。

关键创新:该论文最重要的技术创新点在于将时间信息直接嵌入到硬件层面,利用突触晶体管阵列进行时空联合处理。与传统的仅基于空间信息的光流算法相比,该方法能够利用时间先验信息,快速识别运动区域,从而显著降低计算延迟。此外,二维范德华异质结构的使用,使得突触晶体管具有高频响应、鲁棒的非易失性和优异的耐久性。

关键设计:在硬件层面,关键设计在于二维浮栅突触晶体管的结构和材料选择,以实现高频响应、非易失性和耐久性。在软件层面,关键在于如何有效地利用编码的时间信息来指导空间运动分析,例如,可以通过设计特定的滤波算法,根据时间信息来选择性地过滤视觉输入,从而减少后续计算量。具体的参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。

📊 实验亮点

该系统在软件基准测试中表现出色,速度提升400%,超越现有算法,并在利用嵌入的时间先验信息的同时,保持或提高了准确性,经常超越人类水平的表现。此外,该系统能够在1-2毫秒内快速识别感兴趣区域,显著降低了延迟。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶、无人机等领域,尤其是在需要快速响应和实时感知的场景中。例如,在高速运动的机器人抓取任务中,该系统可以快速准确地估计目标物体的运动状态,从而实现精确抓取。此外,该技术还有望应用于虚拟现实、增强现实等领域,提升用户体验。

📄 摘要(原文)

Optical flow, inspired by the mechanisms of biological visual systems, calculates spatial motion vectors within visual scenes that are necessary for enabling robotics to excel in complex and dynamic working environments. However, current optical flow algorithms, despite human-competitive task performance on benchmark datasets, remain constrained by unacceptable time delays (~0.6 seconds per inference, 4X human processing speed) in practical deployment. Here, we introduce a neuromorphic optical flow approach that addresses delay bottlenecks by encoding temporal information directly in a synaptic transistor array to assist spatial motion analysis. Compared to conventional spatial-only optical flow methods, our spatiotemporal neuromorphic optical flow offers the spatial-temporal consistency of motion information, rapidly identifying regions of interest in as little as 1-2 ms using the temporal motion cues derived from the embedded temporal information in the two-dimensional floating gate synaptic transistors. Thus, the visual input can be selectively filtered to achieve faster velocity calculations and various task execution. At the hardware level, due to the atomically sharp interfaces between distinct functional layers in two-dimensional van der Waals heterostructures, the synaptic transistor offers high-frequency response (~100 μs), robust non-volatility (>10000 s), and excellent endurance (>8000 cycles), enabling robust visual processing. In software benchmarks, our system outperforms state-of-the-art algorithms with a 400% speedup, frequently surpassing human-level performance while maintaining or enhancing accuracy by utilizing the temporal priors provided by the embedded temporal information.