OpenGlass: Open-Source Smart Glasses for On-Device Event-Based Gesture Recognition
作者: Pietro Bonazzi, Julian Moosmann, Ahmet Celik, Philipp Mayer, Michele Magno
分类: cs.CV
发布日期: 2026-06-05
💡 一句话要点
提出OpenGlass以解决智能眼镜的手势识别问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 智能眼镜 手势识别 开源平台 事件驱动 机器学习 模块化设计 低功耗 RISC-V
📋 核心要点
- 现有智能眼镜在功耗、内存和计算能力上存在显著限制,难以实现高效的手势识别。
- 本研究提出了一种开源智能眼镜平台,支持事件驱动和帧驱动摄像头,便于快速原型开发。
- 实验结果表明,使用R(2+1)D模型在LynX数据集上实现了83.94%的最佳跨受试者准确率,且延迟仅为33.9毫秒。
📝 摘要(中文)
智能眼镜通过多模态传感器和设备内智能实现无缝的上下文感知交互,但在紧凑的形态下受到功耗、内存和计算限制的严重制约。本研究介绍了一种开源智能眼镜平台,旨在快速原型开发新传感器和算法。其模块化设计采用灵活的FPC中介器,支持事件驱动和帧驱动摄像头,而无需全面重设计PCB。硬件-软件协同设计的电源管理系统结合了可配置的PMIC和基于事件的唤醒机制,使GAP9 RISC-V SoC在推理间保持低功耗。原型在200 mAh电池下实现了最长11.8小时的连续设备内机器学习。作为演示,评估了基于LynX数据集的自我中心手势识别管道,使用来自Prophesee GENX320摄像头的极性分离事件直方图。R(2+1)D在留出两个受试者的验证中达到了最佳的跨受试者准确率83.94%(宏F1 = 0.781),GAP9的端到端延迟为33.9毫秒。时间增强和消除模糊类别提供了最大的提升(+8.9 pp)。所有硬件设计、固件和模型均已开源发布。
🔬 方法详解
问题定义:本论文旨在解决智能眼镜在手势识别过程中面临的功耗和计算能力限制,现有方法在紧凑设备上难以实现高效的实时处理。
核心思路:提出了一种模块化的开源智能眼镜平台,结合事件驱动和帧驱动摄像头,优化了硬件设计和电源管理,以支持高效的机器学习推理。
技术框架:整体架构包括灵活的FPC中介器、事件驱动的电源管理系统和GAP9 RISC-V SoC。系统在推理间保持低功耗,支持长时间的设备内学习。
关键创新:该平台的创新之处在于其开源设计和模块化结构,允许快速迭代和开发新传感器与算法,显著提升了智能眼镜的应用潜力。
关键设计:采用了可配置的PMIC和nRF5340协调器实现事件驱动唤醒,确保GAP9 SoC在非活动状态下保持低功耗,同时在LynX数据集上使用极性分离事件直方图进行手势识别。实验中,R(2+1)D模型的设计使得跨受试者的准确率得以提升。
🖼️ 关键图片
📊 实验亮点
实验结果显示,R(2+1)D模型在LynX数据集上达到了83.94%的跨受试者准确率,宏F1值为0.781,且系统的端到端延迟仅为33.9毫秒。通过时间增强和消除模糊类别,准确率提升了8.9个百分点,展示了该平台的有效性。
🎯 应用场景
该研究的智能眼镜平台可广泛应用于增强现实、虚拟现实和人机交互等领域,具有重要的实际价值。通过高效的手势识别,用户可以实现更自然的交互方式,推动智能穿戴设备的发展和普及。
📄 摘要(原文)
Smart eyewear enables unobtrusive, context-aware interaction through multimodal sensors and on-device intelligence, but is severely limited by power, memory, and compute constraints in a compact form factor. Open-hardware platforms supporting event-based vision and embedded ML at this scale are rare. This work introduces an open-source smart glasses platform for rapid prototyping of novel sensors and algorithms. Its modular design uses a flexible FPC interposer to support both event-based and frame-based cameras without full PCB redesign. A hardware-software co-designed power management system combines a configurable PMIC with event-driven wake-up via an nRF5340 coordinator, keeping the GAP9 RISC-V SoC powered down between inferences. The prototype achieves up to 11.8 hours of continuous on-device ML from a 200 mAh battery. As a demonstration, an egocentric hand gesture recognition pipeline was evaluated on the LynX dataset using polarity-separated event histograms from a Prophesee GENX320 camera. R(2+1)D achieved the best cross-subject accuracy of 83.94\% (macro F1 = 0.781) under leave-two-subjects-out validation, with 33.9 ms end-to-end latency on the GAP9. Temporal augmentation and removal of ambiguous classes provided the largest gains (+8.9 pp). All hardware designs, firmware, and models are released open source.