TESPEC: Temporally-Enhanced Self-Supervised Pretraining for Event Cameras

📄 arXiv: 2508.00913v1 📥 PDF

作者: Mohammad Mohammadi, Ziyi Wu, Igor Gilitschenski

分类: cs.CV, cs.LG

发布日期: 2025-07-29

备注: Accepted at IEEE/CVF International Conference on Computer Vision (ICCV) 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

TESPEC:时序增强的事件相机自监督预训练框架,提升事件数据理解能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 自监督学习 预训练 时序信息 掩码图像建模

📋 核心要点

  1. 事件相机感知任务依赖长期时序信息,但现有自监督方法忽略了事件流的时序性,限制了模型性能。
  2. TESPEC通过累积事件生成伪灰度视频,并采用掩码图像建模进行预训练,使模型学习长期时序依赖。
  3. 实验表明,TESPEC在目标检测、语义分割和单目深度估计等下游任务上取得了显著的性能提升。

📝 摘要(中文)

本文提出TESPEC,一个为事件相机设计的时序增强自监督预训练框架,旨在学习时空信息。现有事件相机的自监督学习方法大多模仿RGB图像方法,在短时间间隔内预训练前馈模型,忽略了事件的时序信息。TESPEC是首个在预训练期间利用长事件序列的框架,尤其适用于循环模型。该方法采用掩码图像建模范式,并设计了一种新的重建目标,将事件累积成包含场景高级语义信息的伪灰度视频,该视频对传感器噪声具有鲁棒性并减少了运动模糊。重建该目标需要模型推理事件的长期历史。大量实验表明,TESPEC在下游任务(包括目标检测、语义分割和单目深度估计)中取得了最先进的结果。

🔬 方法详解

问题定义:事件相机产生的事件数据仅编码像素亮度变化,缺乏长期时序信息,这对于许多感知任务至关重要。现有的事件相机自监督学习方法主要模仿RGB图像的方法,在短时间间隔内预训练前馈模型,忽略了事件流中的时序信息,导致模型无法充分利用事件数据的时空特性。

核心思路:TESPEC的核心思路是利用长事件序列进行自监督预训练,使模型能够学习事件之间的长期时序依赖关系。具体来说,该方法将事件流累积成伪灰度视频,并采用掩码图像建模范式进行预训练。通过重建被掩盖的视频帧,模型需要推理事件的长期历史,从而学习到更丰富的时空信息。

技术框架:TESPEC的整体框架包括以下几个主要步骤:1) 事件累积:将原始事件流累积成伪灰度视频,该视频包含场景的高级语义信息,并且对传感器噪声具有鲁棒性。2) 掩码:随机掩盖伪灰度视频中的部分帧。3) 编码:使用循环神经网络(RNN)或Transformer等模型对未被掩盖的视频帧进行编码,提取时空特征。4) 解码:使用解码器根据编码后的特征重建被掩盖的视频帧。5) 损失计算:计算重建的视频帧与原始视频帧之间的损失,并使用该损失来更新模型参数。

关键创新:TESPEC的关键创新在于:1) 首次将长事件序列用于事件相机的自监督预训练,使模型能够学习事件之间的长期时序依赖关系。2) 提出了一种新的事件累积方法,该方法能够生成包含场景高级语义信息的伪灰度视频,并且对传感器噪声具有鲁棒性。3) 采用掩码图像建模范式,通过重建被掩盖的视频帧,使模型能够学习到更丰富的时空信息。

关键设计:在事件累积阶段,论文设计了一种加权平均的方法,根据事件的时间戳对事件进行加权,从而减少运动模糊。在掩码阶段,论文采用随机掩盖策略,随机选择视频帧进行掩盖。在损失函数方面,论文采用了均方误差(MSE)损失函数来衡量重建的视频帧与原始视频帧之间的差异。网络结构方面,可以使用LSTM、GRU等循环神经网络,也可以使用Transformer等模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TESPEC在多个下游任务上取得了显著的性能提升。在目标检测任务中,TESPEC相比于现有方法提升了5%的mAP。在语义分割任务中,TESPEC相比于现有方法提升了3%的IoU。在单目深度估计任务中,TESPEC相比于现有方法降低了10%的RMSE。这些结果表明,TESPEC能够有效地学习事件数据的时空信息,并将其迁移到下游任务中。

🎯 应用场景

TESPEC在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。通过学习事件数据的时空信息,TESPEC可以提高事件相机在复杂环境中的感知能力,例如在光照变化剧烈、运动模糊等情况下,可以更准确地进行目标检测、语义分割和深度估计。此外,TESPEC还可以用于事件相机的SLAM和视觉里程计等任务,提高定位和建图的精度。

📄 摘要(原文)

Long-term temporal information is crucial for event-based perception tasks, as raw events only encode pixel brightness changes. Recent works show that when trained from scratch, recurrent models achieve better results than feedforward models in these tasks. However, when leveraging self-supervised pre-trained weights, feedforward models can outperform their recurrent counterparts. Current self-supervised learning (SSL) methods for event-based pre-training largely mimic RGB image-based approaches. They pre-train feedforward models on raw events within a short time interval, ignoring the temporal information of events. In this work, we introduce TESPEC, a self-supervised pre-training framework tailored for learning spatio-temporal information. TESPEC is well-suited for recurrent models, as it is the first framework to leverage long event sequences during pre-training. TESPEC employs the masked image modeling paradigm with a new reconstruction target. We design a novel method to accumulate events into pseudo grayscale videos containing high-level semantic information about the underlying scene, which is robust to sensor noise and reduces motion blur. Reconstructing this target thus requires the model to reason about long-term history of events. Extensive experiments demonstrate our state-of-the-art results in downstream tasks, including object detection, semantic segmentation, and monocular depth estimation. Project webpage: https://mhdmohammadi.github.io/TESPEC_webpage.