Temporal-Aware Spiking Transformer Hashing Based on 3D-DWT

作者: Zihao Mei, Jianhao Li, Bolin Zhang, Chong Wang, Lijun Guo, Guoqi Li, Jiangbo Qian

分类: cs.CV

发布日期: 2025-01-12

备注: TPAMI under review. This work has been submitted to the lEEE for possible publication

💡 一句话要点

提出基于3D-DWT的时序感知脉冲Transformer哈希Spikinghash，用于高效动态视觉数据检索。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 脉冲神经网络 哈希学习 动态视觉传感器 3D离散小波变换 时空特征提取

📋 核心要点

动态视觉数据检索面临高能耗和效率挑战，现有哈希方法难以兼顾。
提出Spikinghash，利用脉冲神经网络的二元特性和时空特征解耦实现高效检索。
实验表明，Spikinghash在多个数据集上实现了最先进的检索性能，同时降低了功耗和参数量。

📝 摘要（中文）

随着动态视觉传感器(DVS)数据的快速增长，构建低功耗、高效的数据检索系统变得迫切。哈希学习是重要的检索技术之一，它可以保持哈希码之间的距离与DVS数据之间的距离一致。由于脉冲神经网络(SNN)可以通过脉冲编码信息，因此在提高能源效率方面表现出巨大的潜力。基于SNN的二元特性，我们首先提出了一种新的监督哈希方法，名为Spikinghash，它具有分层轻量级结构。Spiking WaveMixer (SWM)部署在浅层，利用多级3D离散小波变换(3D-DWT)将时空特征解耦为各种低频和高频分量，然后采用高效的频谱特征融合。SWM可以有效地捕获时间依赖性和局部空间特征。Spiking Self-Attention (SSA)部署在更深层，以进一步提取全局时空信息。我们还设计了一个利用SNN二元特性的哈希层，该层整合多个时间步的信息以生成最终的哈希码。此外，我们为SNN提出了一种新的动态软相似性损失，它利用膜电位构建可学习的相似性矩阵作为软标签，以充分捕获类之间的相似性差异，并补偿SNN中的信息损失，从而提高检索性能。在多个数据集上的实验表明，Spikinghash可以以低功耗和更少的参数实现最先进的结果。

🔬 方法详解

问题定义：论文旨在解决动态视觉传感器(DVS)数据快速增长背景下，如何构建低功耗、高效的数据检索系统的问题。现有哈希学习方法在处理DVS数据时，难以兼顾能源效率和检索性能，尤其是在捕获时空依赖关系方面存在不足。

核心思路：论文的核心思路是利用脉冲神经网络(SNN)的二元特性和事件驱动机制，实现低功耗计算。同时，通过3D离散小波变换(3D-DWT)解耦时空特征，并结合自注意力机制，有效提取全局和局部时空信息，从而提升检索性能。

技术框架：Spikinghash的整体架构包含以下几个主要模块：1) Spiking WaveMixer (SWM)：位于浅层，利用3D-DWT解耦时空特征，并进行频谱特征融合。2) Spiking Self-Attention (SSA)：位于深层，提取全局时空信息。3) 哈希层：利用SNN的二元特性，整合多个时间步的信息生成最终哈希码。4) 动态软相似性损失：利用膜电位构建可学习的相似性矩阵，作为软标签优化网络。

关键创新：论文的关键创新在于：1) 提出了基于3D-DWT的Spiking WaveMixer，能够有效解耦和融合时空特征。2) 设计了利用SNN二元特性的哈希层，实现低功耗哈希码生成。3) 提出了动态软相似性损失，能够更准确地捕获类间相似性差异，并补偿SNN中的信息损失。

关键设计：SWM中，3D-DWT被用于将时空特征分解为不同频率的分量，然后通过频谱特征融合提取关键信息。SSA采用脉冲神经元实现自注意力机制，捕获全局时空依赖关系。哈希层通过对多个时间步的脉冲进行累积和阈值处理，生成二元哈希码。动态软相似性损失基于膜电位构建相似性矩阵，并将其作为软标签用于训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Spikinghash在多个动态视觉数据集上取得了state-of-the-art的检索性能，例如在DDD20数据集上，相比于现有方法，检索精度提升显著。同时，Spikinghash具有更低的功耗和更少的参数量，验证了其在资源受限环境下的优势。

🎯 应用场景

该研究成果可应用于机器人视觉、自动驾驶、视频监控等领域，尤其是在对功耗有严格要求的边缘计算场景下。通过高效的动态视觉数据检索，可以加速目标识别、行为分析等任务，提升系统的实时性和智能化水平。未来，该方法有望进一步推广到其他类型的时序数据处理任务中。

📄 摘要（原文）

With the rapid growth of dynamic vision sensor (DVS) data, constructing a low-energy, efficient data retrieval system has become an urgent task. Hash learning is one of the most important retrieval technologies which can keep the distance between hash codes consistent with the distance between DVS data. As spiking neural networks (SNNs) can encode information through spikes, they demonstrate great potential in promoting energy efficiency. Based on the binary characteristics of SNNs, we first propose a novel supervised hashing method named Spikinghash with a hierarchical lightweight structure. Spiking WaveMixer (SWM) is deployed in shallow layers, utilizing a multilevel 3D discrete wavelet transform (3D-DWT) to decouple spatiotemporal features into various low-frequency and high frequency components, and then employing efficient spectral feature fusion. SWM can effectively capture the temporal dependencies and local spatial features. Spiking Self-Attention (SSA) is deployed in deeper layers to further extract global spatiotemporal information. We also design a hash layer utilizing binary characteristic of SNNs, which integrates information over multiple time steps to generate final hash codes. Furthermore, we propose a new dynamic soft similarity loss for SNNs, which utilizes membrane potentials to construct a learnable similarity matrix as soft labels to fully capture the similarity differences between classes and compensate information loss in SNNs, thereby improving retrieval performance. Experiments on multiple datasets demonstrate that Spikinghash can achieve state-of-the-art results with low energy consumption and fewer parameters.

Temporal-Aware Spiking Transformer Hashing Based on 3D-DWT

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理