Benchmarking Microsaccade Recognition with Event Cameras: A Novel Dataset and Evaluation
作者: Waseem Shariff, Timothy Hanley, Maciej Stec, Hossein Javidnia, Peter Corcoran
分类: cs.CV
发布日期: 2025-10-28
备注: Accepted in British Machine Vision Conference (BMVC) 2025, Main Conference
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出首个事件相机微眼跳数据集,并用脉冲神经网络实现高精度识别。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 微眼跳 脉冲神经网络 数据集 眼动追踪 认知计算 运动识别
📋 核心要点
- 传统微眼跳研究依赖昂贵的眼动追踪仪,且时间分辨率有限,难以捕捉快速的眼球运动细节。
- 论文提出使用事件相机捕获微眼跳,并构建了首个基于事件的微眼跳数据集,包含不同角位移的微眼跳。
- 实验表明,基于脉冲神经网络的模型在该数据集上能达到约90%的平均准确率,验证了事件相机和脉冲神经网络的潜力。
📝 摘要(中文)
微眼跳是视觉感知和神经处理中至关重要的小型、非自主眼球运动。传统微眼跳研究通常使用眼动追踪仪或基于帧的分析,虽然精确,但成本高昂且在可扩展性和时间分辨率方面受到限制。事件相机通过高效捕获细粒度的时空变化,提供了一种高速、低延迟的替代方案。本研究引入了一个开创性的基于事件的微眼跳数据集,以支持认知计算中小眼球运动动力学研究。使用Blender,我们渲染了高保真眼球运动场景,并模拟了角位移从0.5到2.0度的微眼跳,分为七个不同的类别。这些类别使用v2e转换为事件流,保留了微眼跳的自然时间动态,持续时间从0.25毫秒到2.25毫秒不等。我们使用Spiking-VGG11、Spiking-VGG13和Spiking-VGG16评估了该数据集,并提出了Spiking-VGG16Flow,这是一种在SpikingJelly中实现的光流增强变体。这些模型实现了约90%的平均准确率,成功地根据角位移对微眼跳进行分类,而与事件计数或持续时间无关。这些结果证明了脉冲神经网络在精细运动识别方面的潜力,并为基于事件的视觉研究建立了一个基准。数据集、代码和训练好的模型将在https://waseemshariff126.github.io/microsaccades/ 公开。
🔬 方法详解
问题定义:论文旨在解决微眼跳识别中,传统方法成本高、时间分辨率不足的问题。现有方法难以捕捉微眼跳的快速和细微的运动特征,限制了其在认知计算等领域的应用。
核心思路:论文的核心思路是利用事件相机的高时间分辨率和低延迟特性,以及脉冲神经网络(SNN)对时空信息的处理能力,构建一个高效且精确的微眼跳识别系统。事件相机能够捕捉场景中像素亮度变化的异步事件流,SNN则能够直接处理这些事件流,从而避免了传统基于帧的方法的时间分辨率瓶颈。
技术框架:整体框架包括三个主要阶段:1) 使用Blender渲染生成高保真眼球运动场景,并模拟不同角位移的微眼跳;2) 使用v2e工具将模拟的微眼跳转换为事件流,构建数据集;3) 使用Spiking-VGG系列模型(Spiking-VGG11, Spiking-VGG13, Spiking-VGG16)以及提出的Spiking-VGG16Flow模型对数据集进行训练和评估。Spiking-VGG16Flow模型在Spiking-VGG16的基础上增加了光流增强模块。
关键创新:论文的关键创新在于:1) 构建了首个基于事件相机的微眼跳数据集,为相关研究提供了宝贵的数据资源;2) 提出了Spiking-VGG16Flow模型,通过光流增强提升了微眼跳识别的准确率;3) 验证了脉冲神经网络在处理事件相机数据,进行精细运动识别方面的潜力。与现有方法的本质区别在于,该方法利用事件相机和SNN,实现了高时间分辨率和低延迟的微眼跳识别。
关键设计:数据集包含角位移从0.5到2.0度的微眼跳,分为七个不同的类别。使用v2e工具将模拟的微眼跳转换为事件流,保留了微眼跳的自然时间动态,持续时间从0.25毫秒到2.25毫秒不等。Spiking-VGG16Flow模型使用SpikingJelly框架实现,光流增强模块的具体实现细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于脉冲神经网络的模型(Spiking-VGG11、Spiking-VGG13、Spiking-VGG16和Spiking-VGG16Flow)在该数据集上能达到约90%的平均准确率,成功地根据角位移对微眼跳进行分类,且识别精度与事件数量或持续时间无关。这验证了事件相机和脉冲神经网络在微眼跳识别方面的有效性。
🎯 应用场景
该研究成果可应用于眼动追踪、人机交互、认知计算等领域。例如,可以用于开发更精确的眼控设备,帮助残疾人进行交流和操作。此外,该研究还可以用于研究人类的视觉感知机制,为人工智能的发展提供新的思路。未来,该技术有望应用于虚拟现实、增强现实等领域,提升用户体验。
📄 摘要(原文)
Microsaccades are small, involuntary eye movements vital for visual perception and neural processing. Traditional microsaccade studies typically use eye trackers or frame-based analysis, which, while precise, are costly and limited in scalability and temporal resolution. Event-based sensing offers a high-speed, low-latency alternative by capturing fine-grained spatiotemporal changes efficiently. This work introduces a pioneering event-based microsaccade dataset to support research on small eye movement dynamics in cognitive computing. Using Blender, we render high-fidelity eye movement scenarios and simulate microsaccades with angular displacements from 0.5 to 2.0 degrees, divided into seven distinct classes. These are converted to event streams using v2e, preserving the natural temporal dynamics of microsaccades, with durations ranging from 0.25 ms to 2.25 ms. We evaluate the dataset using Spiking-VGG11, Spiking-VGG13, and Spiking-VGG16, and propose Spiking-VGG16Flow, an optical-flow-enhanced variant implemented in SpikingJelly. The models achieve around 90 percent average accuracy, successfully classifying microsaccades by angular displacement, independent of event count or duration. These results demonstrate the potential of spiking neural networks for fine motion recognition and establish a benchmark for event-based vision research. The dataset, code, and trained models will be publicly available at https://waseemshariff126.github.io/microsaccades/ .