Event-based Graph Representation with Spatial and Motion Vectors for Asynchronous Object Detection
作者: Aayush Atul Verma, Arpitsinh Vaghela, Bharatesh Chakravarthi, Kaustav Chanda, Yezhou Yang
分类: cs.CV
发布日期: 2025-07-20
💡 一句话要点
提出基于事件的空间和运动向量图表示,用于异步目标检测。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 异步视觉 图神经网络 目标检测 时空建模 运动向量 B样条 多图表示
📋 核心要点
- 现有基于事件数据的目标检测方法,将稀疏异步数据转换为密集张量,损失了事件相机的优势,而图表示方法在时空动态建模方面存在不足。
- 论文提出一种时空多图表示,解耦空间图和时间图,分别建模全局空间结构和局部动态变化,从而更有效地捕捉时空信息。
- 实验结果表明,该方法在事件目标检测任务上,相比现有图方法,检测精度提升超过6%,并实现了5倍的加速和参数量的减少。
📝 摘要(中文)
基于事件的传感器通过生成稀疏、异步的数据提供高时间分辨率和低延迟。然而,将这种不规则数据转换为密集张量以供标准神经网络使用,会削弱这些固有优势,从而推动了对图表示的研究。虽然这些方法保留了稀疏性并支持异步推理,但由于时空动态建模的次优性,它们在下游任务中的性能仍然有限。本文提出了一种新颖的时空多图表示,以更好地捕捉空间结构和时间变化。我们的方法构建了两个解耦的图:一个利用B样条基函数建模全局结构的空间图,以及一个利用基于运动向量的注意力机制建模局部动态变化的时间图。这种设计使得可以使用高效的2D卷积核来代替计算成本高的3D卷积核。我们在Gen1汽车和eTraM数据集上评估了我们的方法,用于基于事件的目标检测,与之前的基于图的工作相比,检测精度提高了6%以上,速度提高了5倍,参数数量减少,且计算成本没有增加。这些结果突出了结构化图建模对于异步视觉的有效性。
🔬 方法详解
问题定义:基于事件的相机产生异步事件流,传统方法将其转换为密集帧,损失了高时间分辨率和低延迟的优势。现有的图神经网络方法虽然保留了事件的稀疏性,但在建模时空动态信息方面存在不足,导致检测精度受限。
核心思路:将事件数据表示为时空多图,分别使用空间图和时间图建模全局空间结构和局部动态变化。空间图利用B样条基函数建模全局结构,时间图利用运动向量注意力机制建模局部动态变化。这种解耦的设计允许使用高效的2D卷积核代替计算量大的3D卷积核。
技术框架:整体框架包含事件数据预处理、空间图构建、时间图构建、图卷积网络和目标检测头。事件数据首先被处理成体素网格。然后,基于体素网格构建空间图和时间图。空间图使用B样条基函数连接相邻体素,时间图使用运动向量注意力机制连接相邻体素。最后,使用图卷积网络提取特征,并使用目标检测头进行目标检测。
关键创新:核心创新在于解耦的时空多图表示。通过将空间和时间信息分离到不同的图中,可以更有效地建模全局空间结构和局部动态变化。此外,使用运动向量注意力机制建模时间图,可以更好地捕捉事件流中的运动信息。
关键设计:空间图使用B样条基函数建模,B样条的阶数是一个关键参数,影响着全局结构的建模能力。时间图使用运动向量注意力机制,运动向量的计算方法和注意力机制的设计是关键。损失函数包括目标检测损失和正则化损失,用于约束图的结构。
🖼️ 关键图片
📊 实验亮点
在Gen1汽车和eTraM数据集上,该方法相比之前的图方法,目标检测精度提升超过6%,同时实现了5倍的加速,并减少了参数量,而计算成本没有增加。这些结果表明,该方法在保持甚至提升性能的同时,显著提高了效率,更适合实际应用。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、无人机等领域,尤其是在光照条件差、运动速度快等传统视觉传感器受限的场景下。基于事件相机的目标检测技术能够提供更快速、更准确的环境感知能力,提高系统的安全性和可靠性。未来,该方法有望进一步扩展到其他基于事件数据的视觉任务,如场景重建、动作识别等。
📄 摘要(原文)
Event-based sensors offer high temporal resolution and low latency by generating sparse, asynchronous data. However, converting this irregular data into dense tensors for use in standard neural networks diminishes these inherent advantages, motivating research into graph representations. While such methods preserve sparsity and support asynchronous inference, their performance on downstream tasks remains limited due to suboptimal modeling of spatiotemporal dynamics. In this work, we propose a novel spatiotemporal multigraph representation to better capture spatial structure and temporal changes. Our approach constructs two decoupled graphs: a spatial graph leveraging B-spline basis functions to model global structure, and a temporal graph utilizing motion vector-based attention for local dynamic changes. This design enables the use of efficient 2D kernels in place of computationally expensive 3D kernels. We evaluate our method on the Gen1 automotive and eTraM datasets for event-based object detection, achieving over a 6% improvement in detection accuracy compared to previous graph-based works, with a 5x speedup, reduced parameter count, and no increase in computational cost. These results highlight the effectiveness of structured graph modeling for asynchronous vision. Project page: eventbasedvision.github.io/eGSMV.