Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs
作者: Kamil Jeziorek, Tomasz Kryjak
分类: cs.CV
发布日期: 2025-05-12
备注: Presented at the Real-time Processing of Image, Depth and Video Information 2025 workshop and to be considered for publication is the SPIE Proceedings
🔗 代码/项目: GITHUB
💡 一句话要点
提出自监督事件表示方法,实现片上FPGA的精确、实时事件相机感知
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事件相机 自监督学习 事件表示 循环神经网络 FPGA 实时感知 低功耗
📋 核心要点
- 事件相机在时间分辨率、光照鲁棒性和功耗方面优于传统相机,但其稀疏、异步事件流的处理仍具挑战。
- 论文提出自监督事件表示(SSER)方法,利用GRU网络对事件时间戳和极性进行精确编码,无需时间离散化。
- 实验表明,SSER在对象检测任务上优于现有方法,并在FPGA上实现了亚微秒级延迟和低功耗。
📝 摘要(中文)
本文提出了一种新颖的自监督事件表示(SSER)方法,该方法利用门控循环单元(GRU)网络来实现事件时间戳和极性的精确逐像素编码,而无需时间离散化。循环层以自监督方式进行训练,以最大化事件时间编码的保真度。推理通过异步生成的事件表示执行,从而确保与高吞吐量传感器的兼容性。实验验证表明,SSER优于基于聚合的基线方法,在Gen1和1 Mpx对象检测数据集上分别实现了2.4% mAP和0.6%的改进。此外,本文还展示了事件数据循环表示在片上系统FPGA上的首次硬件实现,实现了亚微秒级的延迟和1-2 W的功耗,适用于实时、节能的应用。
🔬 方法详解
问题定义:现有事件相机数据处理方法主要分为两类:直接处理事件数据(如使用SNN或GCN),但性能受限;将事件转换为密集表示(使用手工聚合函数),虽然精度提高,但牺牲了时间分辨率。因此,如何在保证精度的同时,充分利用事件相机的高时间分辨率是一个关键问题。
核心思路:论文的核心思路是学习一种事件数据的连续表示,该表示能够精确地编码每个事件的时间戳和极性,而无需进行时间离散化。通过自监督学习的方式,训练一个循环神经网络,使其能够最大化事件时间编码的保真度。
技术框架:整体框架包括事件数据输入、GRU网络编码、自监督学习和推理四个阶段。首先,事件数据输入到GRU网络中,GRU网络逐像素地编码事件的时间戳和极性信息。然后,通过自监督学习的方式训练GRU网络,目标是最大化事件时间编码的保真度。最后,在推理阶段,使用训练好的GRU网络生成事件表示,用于后续的任务,如对象检测。
关键创新:最重要的创新点在于提出了自监督学习的事件表示方法,该方法能够学习到事件数据的连续表示,从而避免了时间离散化带来的信息损失。此外,该方法还首次在FPGA上实现了事件数据的循环表示,实现了亚微秒级的延迟和低功耗。
关键设计:论文使用GRU网络作为事件编码器,GRU网络能够有效地处理时间序列数据。自监督学习的目标是最大化事件时间编码的保真度,具体来说,是最小化重构误差。损失函数采用均方误差(MSE)。在FPGA实现中,采用了流水线设计和并行计算等优化技术,以实现亚微秒级的延迟。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SSER方法在Gen1和1 Mpx对象检测数据集上分别实现了2.4% mAP和0.6%的改进,优于基于聚合的基线方法。此外,该方法在FPGA上实现了亚微秒级的延迟和1-2 W的功耗,验证了其在实时、节能应用中的可行性。代码已开源。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、高速运动跟踪、工业自动化等领域。事件相机具有高时间分辨率、高动态范围和低功耗等优点,结合本文提出的高效事件表示方法,可以实现更快速、更准确、更节能的感知系统。未来,该技术有望推动事件相机在更多实际场景中的应用。
📄 摘要(原文)
Event cameras offer significant advantages over traditional frame-based sensors. These include microsecond temporal resolution, robustness under varying lighting conditions and low power consumption. Nevertheless, the effective processing of their sparse, asynchronous event streams remains challenging. Existing approaches to this problem can be categorised into two distinct groups. The first group involves the direct processing of event data with neural models, such as Spiking Neural Networks or Graph Convolutional Neural Networks. However, this approach is often accompanied by a compromise in terms of qualitative performance. The second group involves the conversion of events into dense representations with handcrafted aggregation functions, which can boost accuracy at the cost of temporal fidelity. This paper introduces a novel Self-Supervised Event Representation (SSER) method leveraging Gated Recurrent Unit (GRU) networks to achieve precise per-pixel encoding of event timestamps and polarities without temporal discretisation. The recurrent layers are trained in a self-supervised manner to maximise the fidelity of event-time encoding. The inference is performed with event representations generated asynchronously, thus ensuring compatibility with high-throughput sensors. The experimental validation demonstrates that SSER outperforms aggregation-based baselines, achieving improvements of 2.4% mAP and 0.6% on the Gen1 and 1 Mpx object detection datasets. Furthermore, the paper presents the first hardware implementation of recurrent representation for event data on a System-on-Chip FPGA, achieving sub-microsecond latency and power consumption between 1-2 W, suitable for real-time, power-efficient applications. Code is available at https://github.com/vision-agh/RecRepEvent.