Motion-aware Event Suppression for Event Cameras

📄 arXiv: 2602.23204 📥 PDF

作者: Roberto Pellerito, Nico Messikommer, Giovanni Cioffi, Marco Cannici, Davide Scaramuzza

分类: cs.CV, cs.RO

发布日期: 2026-02-28


💡 一句话要点

提出运动感知事件抑制框架,实时过滤事件相机中由独立运动物体和自运动引起的事件。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 事件相机 事件抑制 运动分割 运动预测 视觉里程计

📋 核心要点

  1. 事件相机易受独立运动物体和自运动干扰,现有方法难以有效区分并抑制这些干扰事件。
  2. 提出运动感知事件抑制框架,联合分割IMO并预测其未来运动,从而实现动态事件的预先抑制。
  3. 实验表明,该方法在分割精度和推理速度上均优于现有方法,并显著提升了下游任务的性能。

📝 摘要(中文)

本文提出首个运动感知事件抑制框架,该框架学习实时过滤由独立运动物体(IMO)和自运动触发的事件。我们的模型联合分割当前事件流中的IMO,同时预测它们的未来运动,从而能够在动态事件发生之前进行预期的抑制。我们的轻量级架构在消费级GPU上实现了173 Hz的推理速度,内存使用量小于1 GB,在具有挑战性的EVIMO基准测试中,分割精度比之前的最先进方法高出67%,同时推理速度提高了53%。此外,我们证明了该方法对下游应用的显著好处:我们的方法通过token剪枝将Vision Transformer的推理速度提高了83%,并提高了基于事件的视觉里程计的准确性,将绝对轨迹误差(ATE)降低了13%。

🔬 方法详解

问题定义:事件相机产生的事件流中,存在大量由独立运动物体(IMO)和相机自身运动(自运动)引起的事件。这些事件会干扰后续的视觉处理任务,例如视觉里程计、目标检测等。现有方法通常难以有效区分这些干扰事件,导致性能下降。因此,需要一种方法能够实时、准确地抑制这些由IMO和自运动引起的事件。

核心思路:本文的核心思路是利用深度学习方法,同时进行IMO的分割和运动预测。通过分割IMO,可以识别出哪些事件是由IMO引起的;通过预测IMO的未来运动,可以提前抑制即将发生的、由IMO引起的事件。这种“分割+预测”的策略能够更有效地抑制干扰事件,提高后续视觉任务的性能。

技术框架:该框架主要包含两个模块:IMO分割模块和运动预测模块。IMO分割模块负责在当前事件流中分割出IMO。运动预测模块则基于分割结果,预测IMO的未来运动轨迹。这两个模块是联合训练的,可以相互促进,提高整体性能。在推理阶段,首先使用IMO分割模块分割出IMO,然后使用运动预测模块预测其未来运动,最后根据预测结果抑制相应的事件。

关键创新:该方法最重要的创新点在于将IMO分割和运动预测结合起来,实现运动感知的事件抑制。与现有方法相比,该方法不仅能够识别出IMO,还能够预测其未来运动,从而实现预先抑制。此外,该方法采用轻量级架构,能够在消费级GPU上实现实时推理,具有很强的实用性。

关键设计:在网络结构方面,采用了轻量级的卷积神经网络,以保证推理速度。在损失函数方面,采用了分割损失和运动预测损失的加权和,以平衡两个任务的性能。在训练数据方面,使用了大量的合成数据和真实数据,以提高模型的泛化能力。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在EVIMO基准测试中,分割精度比之前的最先进方法高出67%,同时推理速度提高了53%,达到了173Hz。在下游应用中,该方法通过token剪枝将Vision Transformer的推理速度提高了83%,并将基于事件的视觉里程计的绝对轨迹误差(ATE)降低了13%。这些结果表明,该方法在事件抑制方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、无人机等领域。通过抑制由独立运动物体和自运动引起的事件,可以提高视觉里程计、目标检测等视觉任务的准确性和鲁棒性,从而提升系统的整体性能。此外,该方法还可以应用于事件相机的低功耗设计,通过抑制不必要的事件,降低功耗。

📄 摘要(原文)

In this work, we introduce the first framework for Motion-aware Event Suppression, which learns to filter events triggered by IMOs and ego-motion in real time. Our model jointly segments IMOs in the current event stream while predicting their future motion, enabling anticipatory suppression of dynamic events before they occur. Our lightweight architecture achieves 173 Hz inference on consumer-grade GPUs with less than 1 GB of memory usage, outperforming previous state-of-the-art methods on the challenging EVIMO benchmark by 67\% in segmentation accuracy while operating at a 53\% higher inference rate. Moreover, we demonstrate significant benefits for downstream applications: our method accelerates Vision Transformer inference by 83\% via token pruning and improves event-based visual odometry accuracy, reducing Absolute Trajectory Error (ATE) by 13\%.