BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation using RGB Frames and Events

📄 arXiv: 2410.20451v2 📥 PDF

作者: Yijin Li, Yichen Shen, Zhaoyang Huang, Shuo Chen, Weikang Bian, Xiaoyu Shi, Fu-Yun Wang, Keqiang Sun, Hujun Bao, Zhaopeng Cui, Guofeng Zhang, Hongsheng Li

分类: cs.CV

发布日期: 2024-10-27 (更新: 2025-02-08)

备注: Accepted to ECCV 2024. Project Page: https://zju3dv.github.io/blinkvision


💡 一句话要点

BlinkVision:提出一个使用RGB图像和事件数据的大规模光流、场景流和点跟踪估计基准。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 事件相机 光流估计 场景流估计 点跟踪 基准数据集 多模态数据 计算机视觉

📋 核心要点

  1. 现有方法在光流、场景流和点跟踪等对应任务上缺乏同时包含事件数据和图像的综合性基准。
  2. BlinkVision通过提供大规模、多模态(RGB图像和事件数据)以及密集标注的数据集来填补这一空白。
  3. 该基准数据集包含410个日常类别,模拟了相机抖动和形变等自然因素,为相关研究提供了新的观察和实践。

📝 摘要(中文)

事件视觉的最新进展表明,事件相机通过提供无帧率限制和高动态范围的连续观测,补充了传统相机,使其非常适合光流和点跟踪等对应任务。然而,仍然缺乏包含事件数据和图像的对应任务的综合基准。为了解决这个差距,我们提出了BlinkVision,一个具有多种模态和密集对应注释的大规模多样化基准。BlinkVision提供了几个有价值的特性:1)丰富的模态:包括事件数据和RGB图像。2)广泛的注释:提供覆盖光流、场景流和点跟踪的密集逐像素注释。3)大型词汇表:包含410个日常类别,与LVIS和ShapeNet等流行的2D和3D数据集共享常见类别。4)自然性:提供逼真的数据,并涵盖各种自然因素,如相机抖动和变形。BlinkVision支持对基于图像和基于事件的方法的三种类型的对应任务(光流、点跟踪和场景流估计)进行广泛的基准测试,为未来的研究提供新的观察、实践和见解。基准网站是https://www.blinkvision.net/。

🔬 方法详解

问题定义:论文旨在解决缺乏同时包含RGB图像和事件数据的综合性基准数据集,从而限制了光流、场景流和点跟踪等对应任务中,基于事件相机算法的评估和比较的问题。现有方法要么只关注图像数据,要么事件数据规模较小,难以充分评估算法的性能和泛化能力。

核心思路:论文的核心思路是构建一个大规模、多样化、多模态的基准数据集BlinkVision,该数据集包含RGB图像和事件数据,并提供密集的像素级光流、场景流和点跟踪标注。通过提供高质量的数据和标注,促进基于事件相机算法的研究和发展。

技术框架:BlinkVision数据集的构建主要包括以下几个阶段:1)场景设计:选择410个日常类别,与LVIS和ShapeNet等数据集共享类别,保证数据集的多样性和实用性。2)数据生成:使用渲染引擎生成逼真的RGB图像和事件数据,模拟相机抖动和形变等自然因素。3)数据标注:对RGB图像和事件数据进行密集的像素级光流、场景流和点跟踪标注,保证标注的准确性和完整性。4)数据集发布:将数据集发布到网站,供研究人员下载和使用。

关键创新:BlinkVision的关键创新在于:1)多模态数据:同时包含RGB图像和事件数据,为研究多模态融合算法提供了基础。2)大规模和多样性:包含410个日常类别,模拟了各种自然因素,保证了数据集的泛化能力。3)密集标注:提供密集的像素级光流、场景流和点跟踪标注,为算法的评估提供了准确的依据。

关键设计:BlinkVision数据集的关键设计包括:1)使用高质量的渲染引擎生成逼真的RGB图像和事件数据。2)模拟相机抖动和形变等自然因素,增加数据集的真实感。3)采用专业的标注工具和流程,保证标注的准确性和完整性。4)数据集的规模足够大,能够充分评估算法的性能和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BlinkVision数据集支持对基于图像和基于事件的方法进行广泛的基准测试,为光流、场景流和点跟踪等对应任务提供了新的观察、实践和见解。例如,通过在该数据集上评估不同的光流算法,可以比较它们在不同场景和光照条件下的性能,从而选择最适合特定应用场景的算法。该数据集的发布将促进相关领域的研究和发展。

🎯 应用场景

BlinkVision数据集可广泛应用于机器人导航、自动驾驶、视频监控等领域。通过使用该数据集,研究人员可以开发更鲁棒、更高效的光流、场景流和点跟踪算法,从而提高机器人的感知能力和环境适应性。此外,该数据集还可以促进多模态融合算法的研究,充分利用RGB图像和事件数据的优势,提高算法的性能。

📄 摘要(原文)

Recent advances in event-based vision suggest that these systems complement traditional cameras by providing continuous observation without frame rate limitations and a high dynamic range, making them well-suited for correspondence tasks such as optical flow and point tracking. However, there is still a lack of comprehensive benchmarks for correspondence tasks that include both event data and images. To address this gap, we propose BlinkVision, a large-scale and diverse benchmark with multiple modalities and dense correspondence annotations. BlinkVision offers several valuable features: 1) Rich modalities: It includes both event data and RGB images. 2) Extensive annotations: It provides dense per-pixel annotations covering optical flow, scene flow, and point tracking. 3) Large vocabulary: It contains 410 everyday categories, sharing common classes with popular 2D and 3D datasets like LVIS and ShapeNet. 4) Naturalistic: It delivers photorealistic data and covers various naturalistic factors, such as camera shake and deformation. BlinkVision enables extensive benchmarks on three types of correspondence tasks (optical flow, point tracking, and scene flow estimation) for both image-based and event-based methods, offering new observations, practices, and insights for future research. The benchmark website is https://www.blinkvision.net/.