PSTTS: A Plug-and-Play Token Selector for Efficient Event-based Spatio-temporal Representation Learning
作者: Xiangmo Zhao, Nan Yang, Yang Wang, Zhanwen Liu
分类: cs.CV
发布日期: 2025-09-26
💡 一句话要点
提出PSTTS即插即用模块,有效降低事件数据时空表示学习的计算冗余。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 事件相机 时空表示学习 Token选择 计算效率 运动冗余
📋 核心要点
- 现有事件数据时空表示学习方法忽略了事件帧序列的空间稀疏性和帧间运动冗余,导致计算开销大。
- PSTTS模块利用事件数据的时空分布特性,通过空间Token净化和时间Token选择,去除冗余Token。
- 实验表明,PSTTS在多个数据集和骨干网络上显著降低了FLOPs,提升了FPS,同时保持了任务精度。
📝 摘要(中文)
本文提出了一种渐进式时空Token选择(PSTTS)模块,用于高效的事件数据时空表示学习,无需引入额外参数。PSTTS利用原始事件数据中蕴含的时空分布特性,有效识别并丢弃时空冗余的Token,从而在精度和效率之间实现最佳平衡。PSTTS包含空间Token净化和时间Token选择两个阶段。空间Token净化通过评估每个事件帧内事件的时空一致性来去除噪声和非事件区域,防止干扰后续的时间冗余评估。时间Token选择评估相邻事件帧之间的运动模式相似性,精确识别并去除冗余的时间信息。在HARDVS、DailyDVS-200和SeACT数据集上,PSTTS应用于UniformerV2、VideoSwin、EVMamba和ExACT等四个代表性骨干网络,实验结果表明PSTTS显著提高了效率。在DailyDVS-200数据集上,PSTTS在保持任务准确性的同时,将FLOPs降低了29-43.6%,并将FPS提高了21.6-41.3%。代码即将开源。
🔬 方法详解
问题定义:现有基于事件的空时表示学习方法通常将事件流转换为事件帧序列,但忽略了事件帧序列中固有的高空间稀疏性和帧间运动冗余,导致计算开销显著增加。现有的RGB视频Token稀疏化方法依赖于不可靠的中间Token表示,并且忽略了事件噪声的影响,因此无法直接应用于事件数据。
核心思路:PSTTS的核心思路是利用事件数据本身的时空分布特性,逐步识别并去除冗余的Token,从而在计算效率和模型精度之间取得平衡。通过空间Token净化去除噪声和非事件区域,再通过时间Token选择去除时间上的冗余信息,从而实现高效的表示学习。
技术框架:PSTTS包含两个主要阶段:空间Token净化(Spatial Token Purification)和时间Token选择(Temporal Token Selection)。空间Token净化阶段评估每个事件帧内事件的时空一致性,以去除噪声和非事件区域。时间Token选择阶段评估相邻事件帧之间的运动模式相似性,以识别并去除冗余的时间信息。PSTTS作为一个即插即用模块,可以方便地集成到现有的事件数据处理pipeline中。
关键创新:PSTTS的关键创新在于其针对事件数据的特性,设计了专门的空间Token净化和时间Token选择机制。与直接应用RGB视频的Token稀疏化方法不同,PSTTS考虑了事件数据的噪声和稀疏性,通过时空一致性评估和运动模式相似性评估,更准确地识别和去除冗余Token。此外,PSTTS无需引入额外的参数,降低了模型复杂度。
关键设计:空间Token净化阶段,可能涉及到对事件的时空邻域进行分析,例如统计邻域内事件的数量、计算事件的梯度等,然后根据设定的阈值来判断该Token是否为噪声或非事件区域。时间Token选择阶段,可能涉及到计算相邻帧之间Token的相似度,例如使用余弦相似度或互相关等方法,然后根据相似度的大小来判断是否需要保留该Token。具体的阈值设置可能需要根据不同的数据集和任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在DailyDVS-200数据集上,PSTTS在保持任务准确性的前提下,能够将FLOPs降低29-43.6%,并将FPS提高21.6-41.3%。PSTTS在HARDVS和SeACT数据集上也取得了类似的效率提升,证明了其在不同数据集和骨干网络上的有效性和泛化能力。
🎯 应用场景
PSTTS模块可应用于各种基于事件相机的视觉任务,如自动驾驶、机器人导航、高速运动物体跟踪等。通过降低计算复杂度,PSTTS能够提升事件数据处理的实时性,使其更适用于资源受限的边缘设备。未来,PSTTS可以进一步扩展到其他类型的稀疏数据处理中,具有广阔的应用前景。
📄 摘要(原文)
Mainstream event-based spatio-temporal representation learning methods typically process event streams by converting them into sequences of event frames, achieving remarkable performance. However, they neglect the high spatial sparsity and inter-frame motion redundancy inherent in event frame sequences, leading to significant computational overhead. Existing token sparsification methods for RGB videos rely on unreliable intermediate token representations and neglect the influence of event noise, making them ineffective for direct application to event data. In this paper, we propose Progressive Spatio-Temporal Token Selection (PSTTS), a Plug-and-Play module for event data without introducing any additional parameters. PSTTS exploits the spatio-temporal distribution characteristics embedded in raw event data to effectively identify and discard spatio-temporal redundant tokens, achieving an optimal trade-off between accuracy and efficiency. Specifically, PSTTS consists of two stages, Spatial Token Purification and Temporal Token Selection. Spatial Token Purification discards noise and non-event regions by assessing the spatio-temporal consistency of events within each event frame to prevent interference with subsequent temporal redundancy evaluation. Temporal Token Selection evaluates the motion pattern similarity between adjacent event frames, precisely identifying and removing redundant temporal information. We apply PSTTS to four representative backbones UniformerV2, VideoSwin, EVMamba, and ExACT on the HARDVS, DailyDVS-200, and SeACT datasets. Experimental results demonstrate that PSTTS achieves significant efficiency improvements. Specifically, PSTTS reduces FLOPs by 29-43.6% and increases FPS by 21.6-41.3% on the DailyDVS-200 dataset, while maintaining task accuracy. Our code will be available.