Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision

📄 arXiv: 2410.00368v1 📥 PDF

作者: Riadul Islam, Sri Ranga Sai Krishna Tummala, Joey Mulé, Rohith Kankipati, Suraj Jalapally, Dhandeep Challagundla, Chad Howard, Ryan Robucci

分类: cs.CV, eess.IV

发布日期: 2024-10-01

备注: 8 pages


💡 一句话要点

提出用于可编程阈值稀疏视觉的人脸检测数据集,促进低功耗神经形态成像技术发展。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经形态视觉 稀疏视觉 人脸检测 时间阈值 数据集 低功耗 嵌入式系统

📋 核心要点

  1. 现有神经形态视觉研究缺乏专门数据集,难以评估和优化基于时间阈值的视觉算法。
  2. 论文构建了基于时间阈值的人脸检测数据集,包含多个阈值级别,并提供数据生成工具。
  3. 该数据集旨在促进低功耗神经形态成像技术的发展,实现更准确高效的对象检测。

📝 摘要(中文)

智能焦平面和片上图像处理已成为具有能源效率和隐私性的视觉嵌入式系统的关键技术。然而,缺乏特殊数据集来提供这些神经形态传感器计算以传递视觉信息的示例数据,阻碍了这些有前景技术的应用。神经形态成像仪的变体,包括基于事件的传感器,产生各种表示,例如像素地址流(表示焦平面中强度变化的时间和位置)、时间差数据、由时间差筛选/阈值化的数据、应用空间变换后的图像数据、光流数据和/或统计表示。为了解决这一关键障碍,我们提供了一个带注释的、基于时间阈值的视觉数据集,专门为从Aff-Wild2使用的相同视频中导出的人脸检测任务而设计。通过提供多个阈值级别(例如,4、8、12和16),与传统方法相比,该数据集允许在不同条件和设置下对最先进的神经架构进行全面评估和优化。用于从原始视频生成事件数据的配套工具流程进一步增强了可访问性和可用性。我们预计,该资源将显著支持基于智能传感器的鲁棒视觉系统的开发,这些智能传感器可以基于时间差阈值进行处理,从而实现更准确和高效的对象检测和定位,并最终促进低功耗神经形态成像技术的更广泛应用。为了支持进一步的研究,我们公开发布了数据集。

🔬 方法详解

问题定义:论文旨在解决神经形态视觉领域缺乏专用数据集的问题,特别是针对基于时间阈值的稀疏视觉算法。现有方法难以评估和优化,阻碍了低功耗神经形态成像技术的发展。

核心思路:核心思路是构建一个带注释的、基于时间阈值的视觉数据集,该数据集专门用于人脸检测任务。通过提供不同阈值级别的数据,可以全面评估和优化各种神经架构在不同条件下的性能。

技术框架:该数据集基于Aff-Wild2视频,通过时间阈值处理生成。数据集包含多个阈值级别(4、8、12和16)。同时,论文提供了一个工具流程,用于从原始视频生成事件数据,方便研究人员使用。整体流程包括视频数据获取、阈值处理、数据标注和数据集发布。

关键创新:关键创新在于提供了一个专门针对时间阈值稀疏视觉的数据集,这在以前是缺乏的。此外,提供多个阈值级别的数据,允许研究人员探索不同稀疏程度对算法性能的影响。配套的工具流程也降低了数据生成的门槛。

关键设计:数据集基于Aff-Wild2视频,保证了数据质量和多样性。阈值级别的选择(4、8、12和16)考虑了实际应用中可能遇到的不同稀疏程度。数据标注采用标准的人脸检测标注格式,方便现有算法直接使用。工具流程采用模块化设计,方便用户自定义数据生成参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该数据集提供了多个阈值级别(4、8、12和16),允许研究人员在不同稀疏程度下评估算法性能。与传统方法相比,基于该数据集训练的神经架构有望在低功耗和实时性方面取得显著提升。配套的工具流程简化了数据生成过程,降低了研究门槛。

🎯 应用场景

该数据集可应用于开发低功耗、高效率的视觉嵌入式系统,例如智能监控、机器人导航、可穿戴设备等。通过利用时间阈值稀疏视觉,可以在资源受限的平台上实现实时人脸检测,并降低功耗,延长设备续航时间。该研究有助于推动神经形态视觉技术在实际场景中的应用。

📄 摘要(原文)

Smart focal-plane and in-chip image processing has emerged as a crucial technology for vision-enabled embedded systems with energy efficiency and privacy. However, the lack of special datasets providing examples of the data that these neuromorphic sensors compute to convey visual information has hindered the adoption of these promising technologies. Neuromorphic imager variants, including event-based sensors, produce various representations such as streams of pixel addresses representing time and locations of intensity changes in the focal plane, temporal-difference data, data sifted/thresholded by temporal differences, image data after applying spatial transformations, optical flow data, and/or statistical representations. To address the critical barrier to entry, we provide an annotated, temporal-threshold-based vision dataset specifically designed for face detection tasks derived from the same videos used for Aff-Wild2. By offering multiple threshold levels (e.g., 4, 8, 12, and 16), this dataset allows for comprehensive evaluation and optimization of state-of-the-art neural architectures under varying conditions and settings compared to traditional methods. The accompanying tool flow for generating event data from raw videos further enhances accessibility and usability. We anticipate that this resource will significantly support the development of robust vision systems based on smart sensors that can process based on temporal-difference thresholds, enabling more accurate and efficient object detection and localization and ultimately promoting the broader adoption of low-power, neuromorphic imaging technologies. To support further research, we publicly released the dataset at \url{https://dx.doi.org/10.21227/bw2e-dj78}.