CLANE: Continual Learning of Actions on Neuromorphic Hardware from Event Cameras
作者: Elvin Hajizada, Michael Neumeier, Edward Paxon Frady, Yulia Sandamirskaya, Axel von Arnim, Bing Li, Eyke Hüllermeier
分类: cs.LG, cs.AI, cs.NE
发布日期: 2026-05-27
💡 一句话要点
CLANE:基于事件相机和神经形态硬件的持续动作学习
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 事件相机 神经形态硬件 持续学习 脉冲神经网络 动作识别
📋 核心要点
- 现有AR/VR和机器人应用需要在设备端进行持续学习,但传统视觉方案效率低,无法满足低延迟和隐私保护的需求。
- CLANE利用事件相机的稀疏异步输出与神经形态处理的天然兼容性,结合脉冲神经网络,实现高效的持续学习。
- CLANE在THU E-ACT-50数据集上实现了70.4%的准确率,并在能耗和延迟方面显著优于传统GPU方案。
📝 摘要(中文)
本文提出CLANE,一个基于事件相机的神经形态硬件上的持续动作学习系统,旨在解决AR/VR和机器人应用中对设备端处理和学习的需求。CLANE无需遗忘先前类别,即可识别并持续学习新的人类动作。该系统完全部署在Intel Loihi 2上,结合了用于时空特征提取的脉冲神经网络(SNN)2D CNN,以及作为片上学习头的CLP-SNN。CLP-SNN通过时间聚合层和定点归一化层(均为Loihi 2上的新模块)扩展到动作片段。在真实场景下采集的包含50个类别的THU E-ACT-50数据集上,CLANE在持续学习任务中实现了70.4%的准确率,并且与边缘GPU上的顺序CNN+GRU+CLP基线相比,能耗降低超过100倍,延迟降低16倍,该结果通过跨三个评估级别的同算法跨平台基准测试验证。
🔬 方法详解
问题定义:现有方法在边缘设备上进行持续学习时,面临着计算资源和能耗的限制,尤其是在处理高帧率视频数据时。传统的基于帧的视觉系统难以满足低延迟和实时性的要求。此外,如何在神经形态硬件上实现高效的持续学习也是一个挑战。
核心思路:CLANE的核心思路是利用事件相机的稀疏异步特性,以及神经形态硬件的低功耗和并行计算能力,构建一个高效的持续学习系统。通过脉冲神经网络(SNN)模拟生物神经元的工作方式,实现低功耗的计算。同时,利用Loihi 2的片上学习能力,实现快速的在线学习。
技术框架:CLANE系统包含以下主要模块:1) 事件相机:用于捕获场景中的事件流数据。2) 脉冲神经网络(SNN)2D CNN:用于从事件流中提取时空特征。3) 时间聚合层:用于将多个时间步的特征进行聚合,形成动作片段的表示。4) 定点归一化层:用于对特征进行归一化,提高模型的鲁棒性。5) CLP-SNN:作为片上学习头,用于对动作类别进行分类和持续学习。整个系统部署在Intel Loihi 2神经形态硬件上。
关键创新:CLANE的关键创新在于:1) 首次在神经形态硬件上实现了端到端的事件相机持续动作学习流水线。2) 提出了时间聚合层和定点归一化层,用于扩展CLP-SNN到动作片段的处理。3) 通过同算法跨平台基准测试,验证了CLANE在能耗和延迟方面的显著优势。
关键设计:时间聚合层将多个时间步的SNN特征进行平均池化,形成动作片段的表示。定点归一化层使用定点运算实现特征归一化,降低了计算复杂度。CLP-SNN使用竞争性学习机制,实现类别的持续学习。损失函数采用交叉熵损失函数,优化模型参数。
🖼️ 关键图片
📊 实验亮点
CLANE在THU E-ACT-50数据集上实现了70.4%的准确率,与边缘GPU上的顺序CNN+GRU+CLP基线相比,能耗降低超过100倍,延迟降低16倍。这些结果表明,CLANE在持续学习任务中具有显著的性能优势,并且能够充分利用神经形态硬件的低功耗和低延迟特性。
🎯 应用场景
CLANE在AR/VR、机器人、智能监控等领域具有广泛的应用前景。例如,在AR/VR中,CLANE可以用于实时识别用户的手势和动作,实现更自然的人机交互。在机器人领域,CLANE可以用于机器人的自主导航和目标识别。在智能监控领域,CLANE可以用于异常行为检测和事件分析。该研究有望推动神经形态计算在边缘智能领域的应用。
📄 摘要(原文)
Recognizing and continuously learning novel human actions without forgetting prior classes is a requirement for emerging AR/VR and robotics applications. For these applications, both on-device processing and learning are essential for privacy and low-latency adaptation. Event cameras address the efficiency of visual sensing with sparse, asynchronous output that is naturally compatible with neuromorphic processing. Yet no prior system has deployed a continual on-device learning pipeline for event-based action recognition using neuromorphic hardware. We present CLANE, Continual Learning of Actions on Neuromorphic Hardware from Event Cameras, deployed end-to-end on Intel Loihi 2. CLANE combines a spiking 2D CNN for spatiotemporal feature extraction with CLP-SNN as its on-chip learning head, extended to action clips via a Temporal Aggregation Layer and a fixed-point Normalization Layer, both novel Loihi 2 modules. On THU E-ACT-50, a 50-class dataset captured under real-world conditions, CLANE achieves 70.4% accuracy in a continual learning task while delivering more than 100x energy reduction and 16x lower latency over a sequential CNN+GRU+CLP edge GPU baseline, validated through iso-algorithm cross-platform benchmarking across three evaluation levels.