WatchHAR: Real-time On-device Human Activity Recognition System for Smartwatches
作者: Taeyoung Yeon, Vasco Xu, Henry Hoffmann, Karan Ahuja
分类: cs.CV
发布日期: 2025-09-05
备注: 8 pages, 4 figures, ICMI '25 (27th International Conference on Multimodal Interaction), October 13-17, 2025, Canberra, ACT, Australia
💡 一句话要点
WatchHAR:面向智能手表的实时、端侧人体活动识别系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体活动识别 智能手表 端侧计算 多模态融合 实时系统
📋 核心要点
- 现有细粒度人体活动识别(HAR)系统难以在智能手表上独立运行,面临隐私和延迟挑战。
- WatchHAR通过优化流水线组件,并提出端到端可训练架构,统一预处理和推理,提升效率。
- WatchHAR在智能手表上实现了优于现有技术的性能,事件检测9.3ms,多模态分类11.8ms。
📝 摘要(中文)
本文提出WatchHAR,一个完全运行在智能手表上的、基于音频和惯性传感器的HAR系统,解决了外部数据处理带来的隐私和延迟问题。通过优化流水线的每个组件,WatchHAR实现了累积的性能提升。论文引入了一种新颖的架构,将传感器数据预处理和推理统一到一个端到端可训练的模块中,在保持超过90%准确率的同时,处理速度提高了5倍,支持超过25种活动类别。WatchHAR在智能手表上直接运行,其事件检测和活动分类性能优于最先进的模型,活动事件检测的处理时间为9.3毫秒,多模态活动分类的处理时间为11.8毫秒。这项研究推进了端侧活动识别技术,实现了智能手表作为独立的、注重隐私的、微创的连续活动跟踪设备的潜力。
🔬 方法详解
问题定义:现有的人体活动识别系统通常依赖于外部数据处理,这带来了隐私泄露的风险,并且由于数据传输和处理的延迟,无法满足实时性要求。特别是在智能手表等资源受限的设备上,如何高效地进行活动识别是一个挑战。
核心思路:WatchHAR的核心思路是将整个活动识别流程,包括传感器数据预处理和活动分类,都放在智能手表端进行。通过优化算法和模型架构,降低计算复杂度,提高处理速度,从而在保证准确率的前提下,实现实时、低延迟的活动识别。同时,端侧处理避免了数据上传,保护了用户隐私。
技术框架:WatchHAR的整体框架包含以下几个主要阶段:1) 传感器数据采集:从智能手表的惯性传感器(加速度计、陀螺仪)和麦克风采集数据。2) 数据预处理与特征提取:将传感器数据进行滤波、降噪等预处理,并提取有用的特征。传统方法中,这通常是独立的步骤。WatchHAR将其与推理模块统一。3) 活动分类:使用训练好的模型对提取的特征进行分类,识别用户的活动类型。4) 事件检测:检测活动发生的起始和结束时间。
关键创新:WatchHAR最重要的创新点在于其端到端可训练的架构,该架构将传感器数据预处理、特征提取和活动分类集成到一个统一的模型中。这种设计避免了传统方法中各个模块之间的信息损失,并且可以通过联合优化来提高整体性能。此外,针对智能手表的资源限制,论文对模型进行了优化,降低了计算复杂度。
关键设计:论文中没有明确给出关键参数设置、损失函数和网络结构的具体细节。但可以推断,为了实现端到端训练,可能使用了可微分的预处理方法,并设计了轻量级的神经网络结构,例如卷积神经网络(CNN)或循环神经网络(RNN),以降低计算量。损失函数可能包括分类损失(例如交叉熵损失)和正则化项,以防止过拟合。具体的网络结构和参数设置可能需要根据实际的硬件平台和数据集进行调整。
📊 实验亮点
WatchHAR在智能手表上实现了9.3毫秒的活动事件检测处理时间和11.8毫秒的多模态活动分类处理时间,同时保持了超过90%的准确率。与现有技术相比,WatchHAR在性能和效率方面都有显著提升,尤其是在端侧设备上运行方面具有优势。该系统支持超过25种活动类别,表明其具有较强的泛化能力。
🎯 应用场景
WatchHAR可应用于健康监测、运动追踪、跌倒检测、老年人看护等领域。通过在智能手表上实时识别用户的活动状态,可以为用户提供个性化的健康建议和预警。由于数据完全在本地处理,因此具有很高的隐私保护性。未来,该技术有望扩展到其他可穿戴设备,实现更广泛的应用。
📄 摘要(原文)
Despite advances in practical and multimodal fine-grained Human Activity Recognition (HAR), a system that runs entirely on smartwatches in unconstrained environments remains elusive. We present WatchHAR, an audio and inertial-based HAR system that operates fully on smartwatches, addressing privacy and latency issues associated with external data processing. By optimizing each component of the pipeline, WatchHAR achieves compounding performance gains. We introduce a novel architecture that unifies sensor data preprocessing and inference into an end-to-end trainable module, achieving 5x faster processing while maintaining over 90% accuracy across more than 25 activity classes. WatchHAR outperforms state-of-the-art models for event detection and activity classification while running directly on the smartwatch, achieving 9.3 ms processing time for activity event detection and 11.8 ms for multimodal activity classification. This research advances on-device activity recognition, realizing smartwatches' potential as standalone, privacy-aware, and minimally-invasive continuous activity tracking devices.