EV-LayerSegNet: Self-supervised Motion Segmentation using Event Cameras
作者: Youssef Farah, Federico Paredes-Vallés, Guido De Croon, Muhammad Ahmed Humais, Hussain Sajwani, Yahya Zweiri
分类: cs.CV
发布日期: 2025-06-07
备注: This paper has been accepted for publication at the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, Nashville, 2025
💡 一句话要点
EV-LayerSegNet:一种基于事件相机的自监督运动分割网络
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 事件相机 运动分割 自监督学习 仿射光流 卷积神经网络
📋 核心要点
- 事件相机在运动感知方面优于传统相机,但缺乏有效的自监督训练方法是其应用瓶颈。
- EV-LayerSegNet通过学习仿射光流和分割掩码进行事件去模糊,并以去模糊质量作为自监督损失。
- 在仿射运动模拟数据集上,该网络实现了71%的IoU和87%的检测率,验证了方法的有效性。
📝 摘要(中文)
本文提出了一种名为EV-LayerSegNet的自监督卷积神经网络,用于基于事件相机的运动分割。事件相机是一种新型的生物启发传感器,它以远高于传统相机的时间分辨率捕捉运动动态,因为像素异步地响应亮度变化,因此更适合于运动分割等涉及运动的任务。然而,训练基于事件的网络仍然是一个难题,因为获取ground truth的成本非常高,容易出错且频率有限。受场景动态分层表示的启发,我们证明了可以分别学习仿射光流和分割掩码,并使用它们来对输入事件进行去模糊。然后,测量去模糊质量并将其用作自监督学习损失。我们在一个仅具有仿射运动的模拟数据集上训练和测试网络,实现了高达71%的IoU和87%的检测率。
🔬 方法详解
问题定义:论文旨在解决事件相机运动分割中缺乏有效自监督训练方法的问题。现有方法依赖于昂贵且易出错的ground truth数据,限制了事件相机在实际场景中的应用。
核心思路:论文的核心思路是利用场景动态的分层表示,通过学习仿射光流和分割掩码来实现事件去模糊,并将去模糊的质量作为自监督学习的损失函数。这种方法避免了对ground truth的依赖,从而可以更有效地训练事件相机网络。
技术框架:EV-LayerSegNet的整体框架包含以下几个主要模块:事件输入模块、仿射光流估计模块、分割掩码估计模块、事件去模糊模块和自监督损失计算模块。事件输入模块负责接收事件数据;仿射光流估计模块和分割掩码估计模块分别预测场景中物体的运动和分割信息;事件去模糊模块利用估计的光流和掩码对输入事件进行去模糊处理;自监督损失计算模块则根据去模糊的质量计算损失,用于网络的训练。
关键创新:该论文的关键创新在于提出了一种基于事件去模糊的自监督学习方法。通过将运动分割问题转化为去模糊问题,并利用去模糊质量作为自监督信号,该方法有效地解决了事件相机运动分割中缺乏ground truth的问题。
关键设计:在网络结构方面,论文采用了卷积神经网络(CNN)作为主要架构,并针对事件数据的特点进行了优化。在损失函数方面,论文设计了一种基于去模糊质量的损失函数,该函数能够有效地指导网络学习仿射光流和分割掩码。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EV-LayerSegNet在仿射运动模拟数据集上取得了显著的性能。该网络实现了高达71%的IoU和87%的检测率,证明了其在运动分割任务中的有效性。由于是自监督学习,该方法避免了对大量标注数据的依赖,具有很强的实用价值。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、无人机等领域,尤其是在光照条件恶劣或运动速度较快的场景下,事件相机能够提供更可靠的运动信息。通过自监督学习,可以降低对标注数据的依赖,加速事件相机技术的应用落地,并有望推动相关领域的发展。
📄 摘要(原文)
Event cameras are novel bio-inspired sensors that capture motion dynamics with much higher temporal resolution than traditional cameras, since pixels react asynchronously to brightness changes. They are therefore better suited for tasks involving motion such as motion segmentation. However, training event-based networks still represents a difficult challenge, as obtaining ground truth is very expensive, error-prone and limited in frequency. In this article, we introduce EV-LayerSegNet, a self-supervised CNN for event-based motion segmentation. Inspired by a layered representation of the scene dynamics, we show that it is possible to learn affine optical flow and segmentation masks separately, and use them to deblur the input events. The deblurring quality is then measured and used as self-supervised learning loss. We train and test the network on a simulated dataset with only affine motion, achieving IoU and detection rate up to 71% and 87% respectively.