A Multimodal RGB and Events Dataset for Hand Detection in First-Person View
作者: Bharghav Kota, Yulia Sandamirskaya
分类: cs.CV
发布日期: 2026-06-09
💡 一句话要点
提出多模态RGB与事件数据集以解决手部检测问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手部检测 多模态融合 事件相机 合成数据集 YOLOv8 第一人称视角 动态环境 机器人系统
📋 核心要点
- 现有手部检测算法在动态环境下表现不佳,尤其是在低光照条件下容易出现运动模糊,限制了应用。
- 本文提出了一种合成事件数据集的方法,结合RGB图像与事件相机数据,旨在提高手部检测的准确性。
- 实验结果显示,使用该多模态数据集的手部检测性能与最先进的算法相当,验证了方法的有效性。
📝 摘要(中文)
现有的手部检测算法主要依赖于图像,受限于相机的帧率,导致在运动机器人系统中检测率低下,尤其在低光照条件下容易产生运动模糊。本文利用事件相机的高动态范围、高时间分辨率和低功耗特性,提出了一种基于第一人称视角的合成事件数据集。该数据集通过调整v2e工具箱的参数,生成不同光照条件和尺度的版本,并使用经过微调的YOLOv8模型生成真实检测结果。实验表明,使用该多模态数据集进行手部检测的性能与当前最先进的方法相当。
🔬 方法详解
问题定义:现有手部检测方法在动态场景中受限于相机帧率,导致检测率低,尤其在低光照条件下容易产生运动模糊。
核心思路:本研究提出了一种基于第一人称视角的合成事件数据集,利用事件相机的高动态范围和高时间分辨率,结合RGB图像,旨在提升手部检测的准确性和鲁棒性。
技术框架:整体方法包括数据集的合成、真实检测结果的生成和多模态手部检测的实现。首先,从RGB Egohands数据集中合成事件数据,然后使用YOLOv8模型生成真实检测结果,最后在多模态设置下进行手部检测。
关键创新:最重要的创新在于提出了合成事件数据集的框架,并通过调整参数生成不同光照和尺度的版本,解决了事件相机在物体检测任务中训练数据不足的问题。
关键设计:在数据合成过程中,使用v2e工具箱调整参数以生成多样化的数据集,并通过YOLOv8模型进行真实检测结果的生成,确保数据集的高质量和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用合成的多模态数据集进行手部检测时,性能与当前最先进的算法相当,验证了该方法的有效性和实用性。具体性能数据未提供,但表明在不同光照和尺度条件下均能保持良好表现。
🎯 应用场景
该研究的潜在应用领域包括人机交互、虚拟现实和增强现实等场景,能够在动态环境中实现更高效的手部检测,提升用户体验和系统的智能化水平。未来,该方法有望在机器人操作和自动驾驶等领域发挥重要作用。
📄 摘要(原文)
Existing hand detection algorithms work on images and the detection rate is restricted by the frame rate of the camera. In hand detection applications for moving robotic systems, conventional cameras cause motion blur, especially in darker lighting conditions. We can leverage the use of event-based cameras which possess a high dynamic range, high temporal resolution, and low power consumption. Recent work has shown that using a stereo setup of an event-based and a frame-based camera improves detection accuracy and the bandwidth-latency tradeoff. The main bottleneck in using event-based cameras in object detection and recognition tasks is a relatively low amount of training data. In this work, we propose a methodology and an exemplary synthetic event-based hand dataset from an egocentric, first-person view perspective. The data is synthesized from the existing RGB Egohands dataset with the v2e toolbox. Parameters of the v2e toolbox are varied to provide versions of the dataset with different lighting conditions and scales. Ground truth detections are generated with a fine-tuned YOLOv8 model which is applied to the RGB images in the Egohands dataset and interpolated on the high-temporal resolution events. We use the multi-modal dataset to perform hand detection with existing object detection algorithms which use a multi-modal setup of event and RGB cameras and demonstrate performance comparable to the state-of-the-art.