PLEIADES: Building Temporal Kernels with Orthogonal Polynomials

📄 arXiv: 2405.12179v6 📥 PDF

作者: Yan Ru Pei, Olivier Coenen

分类: cs.LG, cs.AI

发布日期: 2024-05-20 (更新: 2025-10-24)

备注: 14 pages, 3 figures

期刊: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)


💡 一句话要点

PLEIADES:利用正交多项式构建时序核,用于事件相机数据的低延迟时空分类与检测。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 事件相机 时序卷积核 正交多项式 低延迟 时空特征提取

📋 核心要点

  1. 现有方法在处理事件相机数据时,难以兼顾低延迟、高精度和低计算成本,尤其是在时空特征提取方面存在挑战。
  2. PLEIADES利用正交多项式构建结构化的时序卷积核,能够有效地提取事件相机数据中的时空特征,并灵活适应不同的采样率和离散化步长。
  3. 实验结果表明,PLEIADES在多个事件相机数据集上取得了显著的性能提升,同时降低了内存和计算成本,达到了最先进水平。

📝 摘要(中文)

本文提出了一种名为PLEIADES(PoLynomial Expansion In Adaptive Distributed Event-based Systems,自适应分布式事件系统中多项式展开)的神经网络,它包含由正交多项式基函数生成的时序卷积核。我们专注于将这些网络与事件相机数据对接,以实现低延迟的在线时空分类和检测。通过使用结构化的时序核和事件相机数据,我们能够灵活地改变数据的采样率以及网络离散化的步长,而无需额外的微调。我们在三个事件相机基准数据集上进行了实验,并在所有三个数据集上以显著的优势获得了最先进的结果,同时显著降低了内存和计算成本。具体而言,我们在DVS128手势识别数据集上以192K参数实现了99.59%的准确率,并通过一个小的额外输出滤波器实现了100%的准确率;在AIS 2024眼动追踪挑战赛中,以277K参数实现了99.58%的测试准确率;在PROPHESEE 1 Megapixel Automotive Detection Dataset上,以576k参数实现了0.556 mAP。

🔬 方法详解

问题定义:论文旨在解决事件相机数据处理中的高效时空特征提取问题。现有方法通常计算复杂度高,难以实现低延迟的在线处理,并且对数据采样率和网络离散化步长的变化敏感,需要额外的微调。

核心思路:论文的核心思路是利用正交多项式构建结构化的时序卷积核。正交多项式具有良好的数学性质,可以有效地表示时序信息,并且能够通过调整多项式的阶数来控制模型的复杂度。这种结构化的设计使得网络能够灵活适应不同的采样率和离散化步长,而无需额外的微调。

技术框架:PLEIADES网络主要包含以下几个模块:1) 事件相机数据输入模块,负责接收和预处理事件数据;2) 正交多项式时序卷积核生成模块,根据设定的多项式阶数生成时序卷积核;3) 卷积层,利用生成的时序卷积核对事件数据进行卷积操作,提取时空特征;4) 分类/检测模块,根据提取的特征进行分类或检测。整体流程是从事件数据输入开始,经过时序卷积核的卷积操作,最终输出分类或检测结果。

关键创新:PLEIADES最重要的技术创新点在于使用正交多项式构建结构化的时序卷积核。与传统的卷积核相比,这种结构化的设计具有更高的效率和更好的泛化能力。此外,PLEIADES能够灵活适应不同的采样率和离散化步长,而无需额外的微调,这使得它在处理事件相机数据时具有更大的优势。

关键设计:PLEIADES的关键设计包括:1) 正交多项式的选择,论文中使用了Legendre多项式作为基函数;2) 多项式阶数的设置,需要根据具体的任务和数据集进行调整;3) 卷积层的参数设置,包括卷积核的大小、步长和数量;4) 损失函数的选择,根据具体的任务选择合适的损失函数,例如交叉熵损失函数或均方误差损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PLEIADES在三个事件相机基准数据集上取得了显著的性能提升。在DVS128手势识别数据集上,以192K参数实现了99.59%的准确率,并通过一个小的额外输出滤波器实现了100%的准确率。在AIS 2024眼动追踪挑战赛中,以277K参数实现了99.58%的测试准确率。在PROPHESEE 1 Megapixel Automotive Detection Dataset上,以576k参数实现了0.556 mAP。这些结果表明,PLEIADES在事件相机数据处理方面具有显著的优势。

🎯 应用场景

PLEIADES在事件相机数据处理领域具有广泛的应用前景,例如自动驾驶、机器人导航、手势识别、眼动追踪等。其低延迟、高精度和低计算成本的特性使其非常适合于实时性要求高的应用场景。未来,PLEIADES有望在智能交通、人机交互、智能监控等领域发挥重要作用。

📄 摘要(原文)

We introduce a class of neural networks named PLEIADES (PoLynomial Expansion In Adaptive Distributed Event-based Systems), which contains temporal convolution kernels generated from orthogonal polynomial basis functions. We focus on interfacing these networks with event-based data to perform online spatiotemporal classification and detection with low latency. By virtue of using structured temporal kernels and event-based data, we have the freedom to vary the sample rate of the data along with the discretization step-size of the network without additional finetuning. We experimented with three event-based benchmarks and obtained state-of-the-art results on all three by large margins with significantly smaller memory and compute costs. We achieved: 1) 99.59% accuracy with 192K parameters on the DVS128 hand gesture recognition dataset and 100% with a small additional output filter; 2) 99.58% test accuracy with 277K parameters on the AIS 2024 eye tracking challenge; and 3) 0.556 mAP with 576k parameters on the PROPHESEE 1 Megapixel Automotive Detection Dataset.