PASS: Path-selective State Space Model for Event-based Recognition

📄 arXiv: 2409.16953v2 📥 PDF

作者: Jiazhou Zhou, Kanghao Chen, Lei Zhang, Lin Wang

分类: cs.CV

发布日期: 2024-09-25 (更新: 2025-09-21)

备注: Accepted by NeurIPS 2025. Main paper: 10 pages; Supplementary: 6 pages


💡 一句话要点

提出PASS框架,利用路径选择状态空间模型提升事件相机识别的频率泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 目标识别 动作识别 状态空间模型 频率泛化

📋 核心要点

  1. 现有事件相机识别方法在固定频率采样事件,限制了对不同长度事件的处理能力和频率泛化性。
  2. PASS框架利用状态空间模型自适应编码事件特征,通过路径选择事件聚合和扫描(PEAS)模块实现高效特征提取。
  3. 实验表明,PASS在多个数据集上超越现有方法,并在不同推理频率下展现出更强的泛化能力和更小的精度损失。

📝 摘要(中文)

本文提出了一种名为PASS的框架,用于事件相机的目标/动作识别,旨在更好地利用事件相机的高时间分辨率优势。现有方法通常以固定的时间间隔对事件表示进行采样和转换,这限制了它们处理不同事件长度的能力,并且频率泛化能力较差。PASS框架通过状态空间模型(SSM)学习自适应编码的事件特征,SSM的线性复杂度和输入频率泛化能力使其非常适合处理高时间分辨率的事件。具体而言,我们提出了路径选择事件聚合和扫描(PEAS)模块,通过自适应地扫描和选择聚合的事件表示,将事件编码为固定维度的特征。此外,我们引入了一种新颖的多方面选择引导(MSG)损失,以最小化PEAS选择过程中编码特征的随机性和冗余。在五个公共数据集上,我们的方法优于现有方法,并且在不同推理频率下表现出强大的泛化能力,精度下降较小(我们的方法为-8.62%,而基线为-20.69%)。总体而言,PASS在更广泛的事件长度分布(1-10^9)上表现出强大的时空建模能力,精确的时间感知能力,以及对真实世界的泛化能力。

🔬 方法详解

问题定义:现有基于事件相机的识别方法主要依赖于固定时间间隔的采样和转换,这导致模型难以处理不同长度的事件序列,并且在不同频率的推理场景下泛化能力较差。这种固定频率的处理方式无法充分利用事件相机高时间分辨率的优势,限制了模型对时序信息的有效建模。

核心思路:PASS框架的核心思路是利用状态空间模型(SSM)学习自适应编码的事件特征。SSM具有线性复杂度和良好的频率泛化能力,使其能够有效地处理高时间分辨率的事件数据。通过自适应地选择和聚合事件信息,PASS能够提取出对不同事件长度和频率具有鲁棒性的特征表示。

技术框架:PASS框架主要包含两个核心模块:路径选择事件聚合和扫描(PEAS)模块和多方面选择引导(MSG)损失。PEAS模块负责将事件数据编码为固定维度的特征,通过自适应地扫描和选择聚合的事件表示来实现。MSG损失则用于约束PEAS模块的选择过程,最小化编码特征的随机性和冗余性。整个框架的流程是:首先,事件数据输入到PEAS模块进行特征编码;然后,利用编码后的特征进行识别任务;最后,通过MSG损失优化PEAS模块的参数。

关键创新:PASS框架的关键创新在于PEAS模块和MSG损失的设计。PEAS模块通过路径选择的方式自适应地聚合和扫描事件信息,从而能够有效地处理不同长度和频率的事件序列。MSG损失则通过多方面的约束,引导PEAS模块学习到更加稳定和具有代表性的特征表示。与现有方法相比,PASS能够更好地利用事件相机的高时间分辨率优势,并且具有更强的频率泛化能力。

关键设计:PEAS模块的关键设计在于如何实现路径选择的自适应聚合和扫描。具体而言,PEAS模块包含多个不同的路径,每个路径对应不同的聚合方式和扫描策略。模块会根据输入事件数据的特性,自适应地选择合适的路径进行处理。MSG损失的关键设计在于如何定义多方面的约束。MSG损失包含多个不同的损失项,分别用于约束编码特征的随机性、冗余性和区分性。通过联合优化这些损失项,可以引导PEAS模块学习到更加有效的特征表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PASS框架在五个公共数据集上取得了优于现有方法的性能。尤其是在不同推理频率下的泛化能力方面,PASS表现出显著的优势,精度下降仅为-8.62%,而基线方法则下降了-20.69%。这表明PASS能够更好地适应真实世界中不同频率的事件数据,具有更强的实用价值。

🎯 应用场景

PASS框架在事件相机的目标识别、动作识别等领域具有广泛的应用前景。例如,可应用于自动驾驶中的快速目标检测与跟踪,机器人导航中的环境感知,以及安防监控中的异常事件检测。该研究能够提升事件相机在复杂环境下的感知能力,推动事件相机在实际场景中的应用。

📄 摘要(原文)

Event cameras are bio-inspired sensors that capture intensity changes asynchronously with distinct advantages, such as high temporal resolution. Existing methods for event-based object/action recognition predominantly sample and convert event representation at every fixed temporal interval (or frequency). However, they are constrained to processing a limited number of event lengths and show poor frequency generalization, thus not fully leveraging the event's high temporal resolution. In this paper, we present our PASS framework, exhibiting superior capacity for spatiotemporal event modeling towards a larger number of event lengths and generalization across varying inference temporal frequencies. Our key insight is to learn adaptively encoded event features via the state space models (SSMs), whose linear complexity and generalization on input frequency make them ideal for processing high temporal resolution events. Specifically, we propose a Path-selective Event Aggregation and Scan (PEAS) module to encode events into features with fixed dimensions by adaptively scanning and selecting aggregated event presentations. On top of it, we introduce a novel Multi-faceted Selection Guiding (MSG) loss to minimize the randomness and redundancy of the encoded features during the PEAS selection process. Our method outperforms prior methods on five public datasets and shows strong generalization across varying inference frequencies with less accuracy drop (ours -8.62% vs. -20.69% for the baseline). Overall, PASS exhibits strong long spatiotemporal modeling for a broader distribution of event length (1-10^9), precise temporal perception, and generalization for real-world