WatchHAR: Real-time On-device Human Activity Recognition System for Smartwatches

📄 arXiv: 2509.04736v1 📥 PDF

作者: Taeyoung Yeon, Vasco Xu, Henry Hoffmann, Karan Ahuja

分类: cs.CV

发布日期: 2025-09-05

备注: 8 pages, 4 figures, ICMI '25 (27th International Conference on Multimodal Interaction), October 13-17, 2025, Canberra, ACT, Australia

DOI: 10.1145/3716553.3750775


💡 一句话要点

WatchHAR:用于智能手表的全栈式实时人体活动识别系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 智能手表 端到端学习 传感器融合 实时系统

📋 核心要点

  1. 现有细粒度人体活动识别(HAR)系统难以在智能手表上独立运行,面临隐私和延迟挑战。
  2. WatchHAR提出一种端到端可训练架构,统一传感器数据预处理和推理,优化了系统性能。
  3. WatchHAR在智能手表上实现了优于现有模型的性能,支持实时、隐私保护的活动识别。

📝 摘要(中文)

本文提出WatchHAR,一个完全运行在智能手表上的、基于音频和惯性传感器的HAR系统,旨在解决外部数据处理带来的隐私和延迟问题。通过优化流水线的每个组件,WatchHAR实现了累积的性能提升。论文引入了一种新颖的架构,将传感器数据预处理和推理统一到一个端到端可训练的模块中,在保持超过90%准确率的同时,处理速度提高了5倍,支持超过25种活动类别。WatchHAR在智能手表上直接运行,其事件检测和活动分类性能优于最先进的模型,活动事件检测的处理时间为9.3毫秒,多模态活动分类的处理时间为11.8毫秒。这项研究推进了设备上的活动识别,实现了智能手表作为独立的、具有隐私意识的、微创的连续活动跟踪设备的潜力。

🔬 方法详解

问题定义:现有的人体活动识别系统通常依赖于外部数据处理,例如将智能手表收集的数据传输到云端进行分析。这种方式存在两个主要的痛点:一是隐私问题,用户的数据需要上传到服务器,存在泄露风险;二是延迟问题,数据传输和处理需要时间,无法实现实时反馈。因此,如何在智能手表上独立运行高性能的HAR系统,同时保证隐私和低延迟,是一个重要的挑战。

核心思路:WatchHAR的核心思路是将整个HAR流水线,包括传感器数据预处理和活动分类,都放在智能手表上进行。为了实现这一目标,论文提出了一种端到端可训练的架构,将预处理和推理模块整合在一起,从而减少了数据传输和中间处理的开销。此外,论文还对各个模块进行了优化,以提高整体的性能。

技术框架:WatchHAR的整体架构包含以下几个主要模块:1) 传感器数据采集模块,负责从智能手表的惯性传感器(加速度计、陀螺仪)和麦克风采集数据;2) 数据预处理和特征提取模块,该模块与推理模块统一在一个端到端可训练的架构中,负责对原始传感器数据进行滤波、降噪、特征提取等处理;3) 活动分类模块,基于提取的特征,对用户的活动进行分类;4) 事件检测模块,用于检测活动事件的开始和结束。整个系统运行在智能手表上,无需外部服务器支持。

关键创新:WatchHAR最重要的技术创新点在于其端到端可训练的架构,该架构将传感器数据预处理和活动分类统一到一个模块中。这种设计避免了传统流水线中各个模块之间的信息损失和重复计算,从而提高了整体的效率和准确性。此外,论文还针对智能手表的计算资源限制,对各个模块进行了优化,例如使用轻量级的神经网络结构和高效的算法实现。

关键设计:WatchHAR的关键设计包括:1) 使用卷积神经网络(CNN)进行特征提取和活动分类,CNN能够有效地从时序传感器数据中提取特征;2) 采用数据增强技术,增加训练数据的多样性,提高模型的泛化能力;3) 使用剪枝和量化等模型压缩技术,减小模型的大小和计算复杂度,使其能够在智能手表上高效运行;4) 针对音频和惯性传感器数据,设计了特定的预处理方法,例如使用带通滤波器去除噪声,使用滑动窗口提取时域和频域特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WatchHAR在智能手表上实现了实时、高性能的人体活动识别。实验结果表明,WatchHAR在超过25种活动类别上实现了超过90%的准确率,活动事件检测的处理时间为9.3毫秒,多模态活动分类的处理时间为11.8毫秒。与最先进的模型相比,WatchHAR在保持或提高准确率的同时,显著降低了计算开销,使其能够在资源受限的智能手表上高效运行。

🎯 应用场景

WatchHAR的应用场景广泛,包括健康监测、运动追踪、跌倒检测、老年人关怀等。它可以帮助用户更好地了解自己的活动模式,并提供个性化的健康建议。此外,WatchHAR还可以应用于工业领域,例如监测工人的工作状态,提高生产效率和安全性。由于其隐私保护特性,WatchHAR在对数据隐私有较高要求的场景下具有独特的优势。

📄 摘要(原文)

Despite advances in practical and multimodal fine-grained Human Activity Recognition (HAR), a system that runs entirely on smartwatches in unconstrained environments remains elusive. We present WatchHAR, an audio and inertial-based HAR system that operates fully on smartwatches, addressing privacy and latency issues associated with external data processing. By optimizing each component of the pipeline, WatchHAR achieves compounding performance gains. We introduce a novel architecture that unifies sensor data preprocessing and inference into an end-to-end trainable module, achieving 5x faster processing while maintaining over 90% accuracy across more than 25 activity classes. WatchHAR outperforms state-of-the-art models for event detection and activity classification while running directly on the smartwatch, achieving 9.3 ms processing time for activity event detection and 11.8 ms for multimodal activity classification. This research advances on-device activity recognition, realizing smartwatches' potential as standalone, privacy-aware, and minimally-invasive continuous activity tracking devices.