DarkShake-DVS: Event-based Human Action Recognition under Low-light andShaking Camera Conditions
作者: Jiaqi Chen, Qinfu Xu, Liyuan Pan
分类: cs.CV
发布日期: 2026-05-20
备注: 8pages,7 figures
💡 一句话要点
提出EIS-HAR,解决低光照和抖动相机下的事件相机人体行为识别问题
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 人体行为识别 运动补偿 低光照 IMU融合 深度学习 DarkShake-DVS数据集
📋 核心要点
- 现有HAR方法在低光照和剧烈相机抖动下表现不佳,缺乏同时考虑事件数据和IMU信息的有效方案。
- EIS-HAR通过事件-IMU稳定模块减少运动模糊,并设计四阶段混合架构提取时空特征,提升识别精度。
- DarkShake-DVS数据集包含低光照和6-DoF运动下的事件数据和IMU信息,实验证明EIS-HAR优于现有方法。
📝 摘要(中文)
人体行为识别(HAR)是一项基础的计算机视觉任务,具有广泛的实际应用。实际部署通常涉及低光照环境和不受约束的6自由度(6-DoF)相机运动,这些条件会降低视觉质量,扰乱时间连贯性,并损害现有方法的可靠性。事件相机具有高低光照敏感度和微秒级时间分辨率,并与惯性测量单元(IMU)配对,提供了一种有希望的解决方案。然而,目前的研究面临两个关键挑战:缺乏一个整合低光照条件、6-DoF运动和同步IMU数据的基准;以及缺乏有效的运动补偿技术。为了解决这些问题,我们提出了事件-IMU稳定HAR(EIS-HAR),它包含两个模块。第一个是EIS模块,它通过非线性扭曲函数来减少运动模糊,以重建运动补偿后的输入。第二个是HAR模块,它具有一个四阶段混合架构,可以有效地提取时空特征以进行准确的动作识别。为了缓解数据稀缺问题,我们引入了DarkShake-DVS,这是第一个大规模的基于事件的人体行为识别基准,它包括在低光照和剧烈的6-DoF运动中捕获的18,041个真实世界的片段,并辅以同步的IMU数据。在三个数据集上的大量实验表明,EIS-HAR始终优于最先进的方法。
🔬 方法详解
问题定义:现有的人体行为识别方法在低光照和相机剧烈抖动的情况下,性能会显著下降。传统相机在低光照下会产生噪点,而剧烈抖动会导致运动模糊,使得算法难以提取有效的视觉特征。此外,缺乏同时包含事件数据和IMU数据的公开数据集,限制了相关算法的开发和评估。
核心思路:论文的核心思路是利用事件相机的高时间分辨率和低光照敏感性,结合IMU数据进行运动补偿,从而提高在恶劣条件下的行为识别准确率。通过事件-IMU稳定模块(EIS)来减少运动模糊,并设计一个高效的HAR模块来提取时空特征。
技术框架:EIS-HAR框架主要包含两个模块:事件-IMU稳定模块(EIS)和人体行为识别模块(HAR)。EIS模块首先利用IMU数据估计相机的运动轨迹,然后使用非线性扭曲函数将事件数据进行运动补偿,从而减少运动模糊。HAR模块则采用一个四阶段的混合架构,用于提取事件数据的时空特征,最终进行行为分类。
关键创新:论文的关键创新在于提出了事件-IMU稳定模块(EIS),该模块能够有效地利用IMU数据对事件数据进行运动补偿,从而显著减少运动模糊。此外,DarkShake-DVS数据集的发布也为相关研究提供了宝贵的数据资源。与现有方法相比,EIS-HAR能够更好地处理低光照和剧烈相机抖动的情况。
关键设计:EIS模块使用非线性扭曲函数进行运动补偿,该函数基于IMU数据估计的相机运动轨迹。HAR模块采用四阶段混合架构,具体网络结构细节未知,但强调了时空特征的有效提取。损失函数和具体的参数设置在论文中可能有所描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
论文提出了DarkShake-DVS数据集,包含18,041个低光照和剧烈6-DoF运动下的事件数据片段,并辅以同步IMU数据。实验结果表明,EIS-HAR在三个数据集上均优于现有方法,证明了其在恶劣条件下的有效性。具体的性能提升数据未知,但强调了EIS-HAR的一致优越性。
🎯 应用场景
该研究成果可应用于机器人、自动驾驶、安防监控等领域。在光照条件差、相机运动剧烈的情况下,例如夜间监控、无人机巡检、移动机器人导航等,该方法能够更准确地识别人的行为,提高系统的可靠性和智能化水平。未来,该技术有望在智能家居、医疗健康等领域发挥重要作用。
📄 摘要(原文)
Human Action Recognition (HAR) is a fundamental computer vision task with diverse real-world applications. Practical deployments often involve low-light environments and unconstrained 6-DoF camera motion, conditions that degrade visual quality, disrupt temporal coherence, and compromise reliability of existing methods. Event cameras, with high low-light sensitivity and microsecond-level temporal resolution, paired with an inertial measurement unit (IMU), present a promising solution. However, current research faces two key challenges: absence of a benchmark integrating low-light conditions, 6-DoF motion, and synchronized IMU data; and lack of effective motion compensation techniques. To address these, we propose Event-IMU Stabilized HAR (EIS-HAR), with two modules. The first is an EIS module that reduces motion blur via a non-linear warping function to reconstruct a motion-compensated input. The second is a HAR module with a four-stage hybrid architecture to efficiently extract spatiotemporal features for accurate action recognition. To alleviate data scarcity, we introduce DarkShake-DVS, the first large-scale event-based HAR benchmark that includes 18,041 realworld clips captured in low light and intense 6-DoF motion, supplemented by synchronized IMU data. Extensive experiments on three datasets demonstrate consistent superiority of EIS-HAR over state-of-the-art methods.