Motion-aware Event Suppression for Event Cameras

📄 arXiv: 2602.23204v2 📥 PDF

作者: Roberto Pellerito, Nico Messikommer, Giovanni Cioffi, Marco Cannici, Davide Scaramuzza

分类: cs.CV, cs.RO

发布日期: 2026-02-26 (更新: 2026-02-27)


💡 一句话要点

提出运动感知事件抑制框架,实时过滤事件相机中由独立运动物体和自运动产生的事件。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 事件相机 事件抑制 运动分割 运动预测 视觉里程计 深度学习 实时处理

📋 核心要点

  1. 现有事件相机方法难以有效区分由独立运动物体和自运动引起的事件,导致下游任务性能下降。
  2. 提出一种运动感知事件抑制框架,通过联合分割IMO并预测其未来运动,实现对动态事件的预判抑制。
  3. 实验表明,该方法在分割精度和推理速度上均优于现有方法,并显著提升了视觉Transformer和视觉里程计的性能。

📝 摘要(中文)

本文提出首个运动感知事件抑制框架,该框架学习实时过滤由独立运动物体(IMO)和自运动触发的事件。我们的模型联合分割当前事件流中的IMO,同时预测它们的未来运动,从而能够在动态事件发生之前进行预判抑制。我们的轻量级架构在消费级GPU上实现了173 Hz的推理速度,内存使用量小于1 GB,在具有挑战性的EVIMO基准测试中,分割精度比之前的最先进方法提高了67%,同时推理速度提高了53%。此外,我们证明了该方法对下游应用的显著益处:我们的方法通过token剪枝将Vision Transformer的推理速度提高了83%,并提高了基于事件的视觉里程计的精度,将绝对轨迹误差(ATE)降低了13%。

🔬 方法详解

问题定义:事件相机在动态场景中会产生大量由独立运动物体(IMOs)和自运动引起的事件,这些事件会干扰后续的视觉处理任务,例如视觉里程计和目标识别。现有的事件滤波方法通常基于简单的阈值或手工设计的规则,无法有效地抑制这些噪声事件,导致下游任务的性能下降。

核心思路:本文的核心思路是利用深度学习方法,同时进行IMO分割和运动预测,从而实现对未来事件的预判抑制。通过预测IMO的运动轨迹,可以提前识别出由这些物体产生的事件,并在事件发生之前将其过滤掉,从而减少噪声事件对后续处理的影响。

技术框架:该框架包含两个主要模块:IMO分割模块和运动预测模块。IMO分割模块负责将当前事件流中的IMO分割出来,运动预测模块则根据分割结果预测这些IMO的未来运动轨迹。这两个模块联合训练,共同优化,从而实现对动态事件的准确预测和抑制。整个流程可以概括为:输入事件流 -> IMO分割 -> 运动预测 -> 事件抑制 -> 输出过滤后的事件流。

关键创新:该方法最重要的技术创新点在于将IMO分割和运动预测结合起来,实现对未来事件的预判抑制。与传统的事件滤波方法相比,该方法能够更准确地识别和抑制噪声事件,从而提高下游任务的性能。此外,该方法采用轻量级架构,能够在消费级GPU上实现实时推理,具有很高的实用价值。

关键设计:在IMO分割模块中,使用了基于卷积神经网络的分割模型,并采用了Dice Loss作为损失函数,以提高分割精度。在运动预测模块中,使用了基于循环神经网络的预测模型,并采用了均方误差作为损失函数,以提高预测精度。此外,为了进一步提高推理速度,还采用了模型压缩和量化等技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在EVIMO基准测试中,分割精度比之前的最先进方法提高了67%,同时推理速度提高了53%,达到了173Hz。在下游应用中,该方法通过token剪枝将Vision Transformer的推理速度提高了83%,并将基于事件的视觉里程计的绝对轨迹误差(ATE)降低了13%。这些结果表明,该方法在事件抑制和下游任务性能提升方面具有显著优势。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、无人机等领域。通过有效抑制由独立运动物体和自运动产生的噪声事件,可以提高视觉里程计的精度和鲁棒性,从而改善机器人在复杂环境中的定位和导航能力。此外,该方法还可以应用于事件相机的目标识别和跟踪等任务,提高算法的准确性和效率。

📄 摘要(原文)

In this work, we introduce the first framework for Motion-aware Event Suppression, which learns to filter events triggered by IMOs and ego-motion in real time. Our model jointly segments IMOs in the current event stream while predicting their future motion, enabling anticipatory suppression of dynamic events before they occur. Our lightweight architecture achieves 173 Hz inference on consumer-grade GPUs with less than 1 GB of memory usage, outperforming previous state-of-the-art methods on the challenging EVIMO benchmark by 67\% in segmentation accuracy while operating at a 53\% higher inference rate. Moreover, we demonstrate significant benefits for downstream applications: our method accelerates Vision Transformer inference by 83\% via token pruning and improves event-based visual odometry accuracy, reducing Absolute Trajectory Error (ATE) by 13\%.