Unsupervised Joint Learning of Optical Flow and Intensity with Event Cameras

📄 arXiv: 2503.17262v2 📥 PDF

作者: Shuang Guo, Friedhelm Hamann, Guillermo Gallego

分类: cs.CV, cs.LG, eess.IV

发布日期: 2025-03-21 (更新: 2025-07-22)

备注: 13 pages, 8 figures, 9 tables. Project page: https://github.com/tub-rip/E2FAI . IEEE/CVF International Conference on Computer Vision (ICCV), 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种基于事件相机的无监督光流与图像强度联合学习框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 光流估计 图像重建 无监督学习 联合学习 高动态范围 深度学习

📋 核心要点

  1. 现有方法将事件相机光流和图像强度恢复视为独立任务,忽略了二者内在联系。
  2. 提出无监督联合学习框架,利用单个网络同时估计光流和图像强度。
  3. 实验表明,该方法在光流估计方面优于现有无监督方法,且推理速度更快。

📝 摘要(中文)

事件相机依赖于运动来获取场景外观信息,这意味着外观和运动是内在联系的:要么同时存在并记录在事件数据中,要么都不被捕获。以往的工作将这两个视觉量的恢复视为独立的任务,这与事件相机的上述特性不符,并忽略了它们之间的内在联系。我们提出了一个无监督学习框架,使用单个网络联合估计光流(运动)和图像强度(外观)。从数据生成模型出发,我们新推导了基于事件的光度误差,作为光流和图像强度的函数。该误差进一步与对比度最大化框架相结合,形成一个综合的损失函数,为光流和强度估计提供适当的约束。实验结果表明,我们的方法具有最先进的性能:在光流估计中,与无监督方法相比,EPE降低了20%,AE降低了25%,同时提供了具有竞争力的强度估计结果,尤其是在高动态范围场景中。我们的方法还实现了比所有其他光流方法和许多图像重建方法更短的推理时间,而它们只输出一个量。

🔬 方法详解

问题定义:论文旨在解决事件相机数据中光流和图像强度联合估计的问题。现有方法通常将这两个任务分离处理,没有充分利用事件相机数据中运动和外观之间的内在联系。这种分离处理方式可能导致次优的结果,尤其是在高动态范围等复杂场景下。

核心思路:论文的核心思路是利用事件相机的数据生成模型,将光流和图像强度视为相互关联的变量,并设计一个统一的框架来同时估计它们。通过联合学习,网络可以更好地理解场景的运动和外观信息,从而提高估计的准确性和鲁棒性。

技术框架:该框架主要包含一个深度神经网络,该网络以事件数据作为输入,同时输出光流和图像强度估计。该网络通过最小化一个综合的损失函数进行训练,该损失函数包含两部分:基于事件的光度误差和对比度最大化损失。基于事件的光度误差衡量了估计的光流和图像强度与事件数据的一致性,而对比度最大化损失则鼓励网络生成清晰的图像。

关键创新:该论文的关键创新在于提出了基于事件的光度误差,该误差直接将光流和图像强度与事件数据联系起来。与传统的图像光度误差不同,该误差是专门为事件相机设计的,能够更好地捕捉事件数据的特性。此外,该论文还提出了一个无监督的联合学习框架,能够同时估计光流和图像强度,避免了传统方法中需要分别训练多个模型的复杂性。

关键设计:论文中,基于事件的光度误差是根据事件相机的数据生成模型推导出来的,它考虑了事件的极性和时间戳信息。对比度最大化损失采用了一种基于梯度的方法,鼓励网络生成具有高对比度的图像。网络结构采用了一种编码器-解码器结构,编码器用于提取事件数据的特征,解码器用于生成光流和图像强度估计。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在光流估计方面取得了显著的性能提升,与现有无监督方法相比,EPE降低了20%,AE降低了25%。同时,该方法在图像强度估计方面也取得了具有竞争力的结果,尤其是在高动态范围场景下。此外,该方法还实现了比其他光流方法和许多图像重建方法更快的推理速度,使其更适合实时应用。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。通过更准确地估计运动和场景外观,可以提高机器人在复杂环境中的感知能力和决策能力。此外,该方法在高动态范围场景下的良好表现,使其在监控、安防等领域也具有潜在的应用价值。未来,该方法可以进一步扩展到其他类型的事件相机数据,并与其他传感器融合,以实现更全面的场景理解。

📄 摘要(原文)

Event cameras rely on motion to obtain information about scene appearance. This means that appearance and motion are inherently linked: either both are present and recorded in the event data, or neither is captured. Previous works treat the recovery of these two visual quantities as separate tasks, which does not fit with the above-mentioned nature of event cameras and overlooks the inherent relations between them. We propose an unsupervised learning framework that jointly estimates optical flow (motion) and image intensity (appearance) using a single network. From the data generation model, we newly derive the event-based photometric error as a function of optical flow and image intensity. This error is further combined with the contrast maximization framework to form a comprehensive loss function that provides proper constraints for both flow and intensity estimation. Exhaustive experiments show our method's state-of-the-art performance: in optical flow estimation, it reduces EPE by 20% and AE by 25% compared to unsupervised approaches, while delivering competitive intensity estimation results, particularly in high dynamic range scenarios. Our method also achieves shorter inference time than all other optical flow methods and many of the image reconstruction methods, while they output only one quantity. Project page: https://github.com/tub-rip/E2FAI