Revisit Event Generation Model: Self-Supervised Learning of Event-to-Video Reconstruction with Implicit Neural Representations
作者: Zipeng Wang, Yunfan Lu, Lin Wang
分类: cs.CV
发布日期: 2024-07-26
期刊: ECCV2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出EvINR,利用隐式神经表示自监督学习事件到视频的重建,无需光流估计。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 视频重建 自监督学习 隐式神经表示 偏微分方程
📋 核心要点
- 现有事件到视频重建方法依赖合成数据的监督学习,缺乏可解释性且易过拟合。
- EvINR通过隐式神经表示直接建模事件生成偏微分方程,实现自监督的事件到视频重建。
- 实验表明,EvINR在重建精度上显著优于现有自监督方法,并可与监督方法媲美。
📝 摘要(中文)
本文提出了一种新颖的自监督学习(SSL)事件到视频重建方法,名为EvINR,它消除了对标记数据或光流估计的需求。核心思想是通过直接解决事件生成模型来重建强度帧,该模型本质上是一个偏微分方程(PDE),描述了事件如何基于时变亮度信号生成。具体来说,我们利用隐式神经表示(INR),它接收时空坐标$(x, y, t)$并预测强度值,来表示事件生成方程的解。INR被参数化为一个全连接的多层感知器(MLP),可以通过事件监督其时间导数进行优化。为了使EvINR适用于在线需求,我们提出了几种加速技术,大大加快了训练过程。综合实验表明,我们的EvINR在均方误差(MSE)方面超过了以前的SSL方法38%,并且与SoTA监督方法相当或更好。
🔬 方法详解
问题定义:事件到视频重建旨在从事件数据中恢复高时间分辨率和高动态范围的强度帧,从而弥合基于事件和基于帧的计算机视觉之间的差距。现有的方法主要依赖于合成数据的监督学习,这限制了模型的泛化能力,并且容易过拟合到模拟器的特定设置。最近的自监督方法依赖于光流估计,但光流估计的误差会严重影响重建质量。
核心思路:EvINR的核心思想是直接对事件生成模型进行建模,该模型是一个偏微分方程,描述了事件是如何由时变亮度信号产生的。通过求解这个偏微分方程,可以直接从事件数据中恢复强度帧,而无需依赖于光流估计或其他中间表示。论文使用隐式神经表示(INR)来表示偏微分方程的解,INR可以将时空坐标映射到强度值。
技术框架:EvINR的整体框架包括以下几个步骤:1) 使用事件数据作为输入;2) 使用INR将时空坐标映射到强度值;3) 计算INR的时间导数;4) 使用事件数据监督时间导数,优化INR的参数。INR被参数化为一个全连接的MLP。为了加速训练过程,论文提出了一些加速技术。
关键创新:EvINR的关键创新在于使用INR直接建模事件生成模型,从而避免了对光流估计的依赖。这种方法更加直接和有效,并且可以更好地利用事件数据中的信息。此外,论文还提出了一些加速技术,使得EvINR可以应用于在线场景。
关键设计:INR的网络结构是一个全连接的MLP,输入是时空坐标$(x, y, t)$,输出是强度值。损失函数包括两部分:一部分是事件数据对时间导数的监督,另一部分是正则化项,用于防止过拟合。论文还提出了一些加速技术,例如使用小批量训练和梯度裁剪。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EvINR在事件到视频重建任务上取得了显著的性能提升。在公开数据集上,EvINR的MSE比之前的自监督方法降低了38%,并且与最先进的监督方法相比,性能相当甚至更优。这些结果表明,EvINR是一种有效且高效的事件到视频重建方法。
🎯 应用场景
EvINR在机器人导航、自动驾驶、高速运动捕捉等领域具有广泛的应用前景。它可以用于提高视觉系统的鲁棒性和效率,尤其是在光照条件不佳或运动速度较快的情况下。此外,EvINR还可以用于事件相机的模拟和数据增强,从而促进事件相机的研究和应用。
📄 摘要(原文)
Reconstructing intensity frames from event data while maintaining high temporal resolution and dynamic range is crucial for bridging the gap between event-based and frame-based computer vision. Previous approaches have depended on supervised learning on synthetic data, which lacks interpretability and risk over-fitting to the setting of the event simulator. Recently, self-supervised learning (SSL) based methods, which primarily utilize per-frame optical flow to estimate intensity via photometric constancy, has been actively investigated. However, they are vulnerable to errors in the case of inaccurate optical flow. This paper proposes a novel SSL event-to-video reconstruction approach, dubbed EvINR, which eliminates the need for labeled data or optical flow estimation. Our core idea is to reconstruct intensity frames by directly addressing the event generation model, essentially a partial differential equation (PDE) that describes how events are generated based on the time-varying brightness signals. Specifically, we utilize an implicit neural representation (INR), which takes in spatiotemporal coordinate $(x, y, t)$ and predicts intensity values, to represent the solution of the event generation equation. The INR, parameterized as a fully-connected Multi-layer Perceptron (MLP), can be optimized with its temporal derivatives supervised by events. To make EvINR feasible for online requisites, we propose several acceleration techniques that substantially expedite the training process. Comprehensive experiments demonstrate that our EvINR surpasses previous SSL methods by 38% w.r.t. Mean Squared Error (MSE) and is comparable or superior to SoTA supervised methods. Project page: https://vlislab22.github.io/EvINR/.