HoloEv-Net: Efficient Event-based Action Recognition via Holographic Spatial Embedding and Global Spectral Gating

📄 arXiv: 2602.04182v1 📥 PDF

作者: Weidong Hao

分类: cs.CV, cs.AI

发布日期: 2026-02-04


💡 一句话要点

HoloEv-Net:通过全息空间嵌入和全局频谱门控实现高效的基于事件的动作识别

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 动作识别 时空表示 频谱分析 全局门控 高效计算 边缘部署

📋 核心要点

  1. 现有基于事件的动作识别方法存在计算冗余、结构冗余以及频谱信息利用不足等问题。
  2. HoloEv-Net通过紧凑的全息时空表示(CHSR)和全局频谱门控(GSG)模块来解决上述问题,提升效率和精度。
  3. 实验表明,HoloEv-Net在多个数据集上取得了SOTA性能,并且轻量级版本在效率方面有显著提升。

📝 摘要(中文)

基于事件的动作识别(EAR)因事件相机的高时间分辨率和高动态范围而备受关注。然而,现有方法通常存在以下问题:(i)密集体素表示的计算冗余,(ii)多分支架构中固有的结构冗余,以及(iii)在捕获全局运动模式时频谱信息的利用不足。为了解决这些挑战,我们提出了一个名为HoloEv-Net的高效EAR框架。首先,为了同时解决表示和结构冗余,我们引入了一种紧凑的全息时空表示(CHSR)。CHSR摒弃了计算量大的体素网格,将水平空间线索隐式地嵌入到时间-高度(T-H)视图中,有效地在2D表示中保留了3D时空上下文。其次,为了利用被忽略的频谱线索,我们设计了一个全局频谱门控(GSG)模块。通过利用快速傅里叶变换(FFT)进行频域中的全局token混合,GSG以可忽略的参数开销增强了表示能力。大量实验证明了我们框架的可扩展性和有效性。具体来说,HoloEv-Net-Base在THU-EACT-50-CHL、HARDVS和DailyDVS-200上实现了最先进的性能,分别优于现有方法10.29%、1.71%和6.25%。此外,我们的轻量级变体HoloEv-Net-Small在提供极高效率的同时,提供了极具竞争力的准确性,与重型基线相比,参数减少了5.4倍,FLOPs减少了300倍,延迟减少了2.4倍,展示了其在边缘部署中的潜力。

🔬 方法详解

问题定义:现有基于事件的动作识别方法通常依赖于密集的体素表示,导致计算冗余。多分支架构也引入了结构冗余。此外,现有方法通常忽略了频谱信息在捕获全局运动模式中的作用,导致性能瓶颈。

核心思路:HoloEv-Net的核心思路是通过紧凑的全息时空表示(CHSR)来减少表示和结构冗余,并利用全局频谱门控(GSG)模块来有效利用频谱信息。CHSR将3D时空信息压缩到2D表示中,降低了计算复杂度。GSG通过频域的全局token混合来增强特征表示能力。

技术框架:HoloEv-Net主要包含两个核心模块:CHSR和GSG。首先,事件数据通过CHSR被转换为紧凑的2D表示。然后,该表示被输入到包含GSG模块的神经网络中进行特征提取和分类。整个框架采用端到端的方式进行训练。

关键创新:HoloEv-Net的关键创新在于CHSR和GSG的结合。CHSR通过全息的方式将3D信息嵌入到2D平面,极大地减少了计算量。GSG则通过在频域进行全局信息交互,有效捕捉了全局运动模式,弥补了传统方法在频谱信息利用方面的不足。

关键设计:CHSR的关键设计在于将水平空间信息嵌入到Time-Height视图中,从而在2D表示中保留3D时空上下文。GSG的关键设计在于利用FFT进行频域的全局token混合,并使用门控机制来控制不同频率成分的贡献。网络结构方面,论文设计了HoloEv-Net-Base和HoloEv-Net-Small两个版本,分别面向高性能和高效率的应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HoloEv-Net-Base在THU-EACT-50-CHL、HARDVS和DailyDVS-200数据集上分别取得了10.29%、1.71%和6.25%的性能提升,达到了SOTA水平。更重要的是,轻量级版本HoloEv-Net-Small在保持竞争力的准确率的同时,参数量减少了5.4倍,FLOPs减少了300倍,延迟降低了2.4倍,充分展示了其在边缘计算方面的优势。

🎯 应用场景

HoloEv-Net在机器人、自动驾驶、监控等领域具有广泛的应用前景。其高效的计算特性使其非常适合在资源受限的边缘设备上部署,例如无人机、移动机器人等。通过实时分析事件流,HoloEv-Net可以实现快速、准确的动作识别,从而为这些应用提供更智能、更可靠的感知能力。

📄 摘要(原文)

Event-based Action Recognition (EAR) has attracted significant attention due to the high temporal resolution and high dynamic range of event cameras. However, existing methods typically suffer from (i) the computational redundancy of dense voxel representations, (ii) structural redundancy inherent in multi-branch architectures, and (iii) the under-utilization of spectral information in capturing global motion patterns. To address these challenges, we propose an efficient EAR framework named HoloEv-Net. First, to simultaneously tackle representation and structural redundancies, we introduce a Compact Holographic Spatiotemporal Representation (CHSR). Departing from computationally expensive voxel grids, CHSR implicitly embeds horizontal spatial cues into the Time-Height (T-H) view, effectively preserving 3D spatiotemporal contexts within a 2D representation. Second, to exploit the neglected spectral cues, we design a Global Spectral Gating (GSG) module. By leveraging the Fast Fourier Transform (FFT) for global token mixing in the frequency domain, GSG enhances the representation capability with negligible parameter overhead. Extensive experiments demonstrate the scalability and effectiveness of our framework. Specifically, HoloEv-Net-Base achieves state-of-the-art performance on THU-EACT-50-CHL, HARDVS and DailyDVS-200, outperforming existing methods by 10.29%, 1.71% and 6.25%, respectively. Furthermore, our lightweight variant, HoloEv-Net-Small, delivers highly competitive accuracy while offering extreme efficiency, reducing parameters by 5.4 times, FLOPs by 300times, and latency by 2.4times compared to heavy baselines, demonstrating its potential for edge deployment.