EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor

📄 arXiv: 2504.17735v1 📥 PDF

作者: Akhil Padmanabha, Saravanan Govindarajan, Hwanmun Kim, Sergio Ortiz, Rahul Rajan, Doruk Senkal, Sneha Kadetotad

分类: cs.CV, cs.LG

发布日期: 2025-04-24


💡 一句话要点

EgoCHARM:利用头戴IMU传感器实现资源高效的分层活动识别

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体活动识别 惯性测量单元 半监督学习 分层算法 嵌入学习

📋 核心要点

  1. 现有的以自我为中心的活动识别方法存在性能低或资源消耗大的问题,难以在资源受限的设备上部署。
  2. EgoCHARM采用分层算法和半监督学习,仅需少量高层活动标签即可学习通用的低层运动嵌入。
  3. 实验结果表明,EgoCHARM在保证较高识别精度的同时,显著降低了模型参数量,可直接部署在IMU芯片上。

📝 摘要(中文)

本文提出了一种资源高效的机器学习算法EgoCHARM,用于在智能眼镜上进行人体活动识别(HAR)。该算法利用单个头戴式惯性测量单元(IMU)识别高层和低层活动,适用于健康/健身追踪和情境感知AI助手等多种应用。EgoCHARM采用分层结构和半监督学习策略,主要使用高层活动标签进行训练,学习可泛化的低层运动嵌入,有效用于低层活动识别。在9种高层和3种低层活动上的评估结果表明,EgoCHARM在高层和低层活动识别上分别实现了0.826和0.855的F1分数,且模型参数仅为63k(高层)和22k(低层),使得低层编码器可以直接部署在当前的IMU芯片上。最后,本文还展示了敏感性分析的结果和见解,并强调了使用头戴式IMU进行活动识别的机遇和局限性。

🔬 方法详解

问题定义:论文旨在解决在资源受限的智能眼镜等设备上,如何高效准确地进行人体活动识别的问题。现有方法要么精度不高,要么需要大量的计算资源和存储空间,难以在低功耗设备上部署。特别是对于低层活动的识别,往往需要大量的标注数据,成本较高。

核心思路:论文的核心思路是利用分层结构和半监督学习,在高层活动标签的辅助下,学习通用的低层运动嵌入。这样,只需要少量的高层活动标注数据,就可以训练出能够有效识别低层活动的模型,从而降低标注成本和模型复杂度。

技术框架:EgoCHARM算法包含两个主要层次:高层活动识别和低层活动识别。首先,利用高层活动标签训练一个高层活动分类器。然后,利用高层活动分类器的输出来指导低层运动嵌入的学习。具体来说,低层运动嵌入被训练成能够区分不同高层活动的状态。最后,利用学习到的低层运动嵌入进行低层活动识别。

关键创新:该方法最重要的创新点在于其半监督学习策略,它允许模型仅使用少量的高层活动标签来学习通用的低层运动嵌入。这种方法显著降低了对低层活动标注数据的需求,并提高了模型的泛化能力。此外,分层结构也使得模型更加模块化,易于部署和维护。

关键设计:论文中使用了惯性测量单元(IMU)采集数据,并设计了特定的网络结构来提取高层和低层活动的特征。损失函数的设计也至关重要,它需要能够有效地利用高层活动标签来指导低层运动嵌入的学习。具体的网络结构和损失函数细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoCHARM算法在9种高层和3种低层活动识别任务上取得了显著成果,高层活动识别的F1分数达到0.826,低层活动识别的F1分数达到0.855。更重要的是,该模型仅需63k(高层)和22k(低层)参数,使得低层编码器可以直接部署在当前的IMU芯片上,这为资源受限设备上的活动识别提供了可行的解决方案。

🎯 应用场景

EgoCHARM算法可应用于智能眼镜、智能手表等可穿戴设备上,用于健康监测、运动追踪、跌倒检测等场景。此外,该算法还可以作为情境感知AI助手的输入,帮助AI助手更好地理解用户的行为和意图,从而提供更个性化的服务。该研究有望推动可穿戴设备在健康和生活领域的广泛应用。

📄 摘要(原文)

Human activity recognition (HAR) on smartglasses has various use cases, including health/fitness tracking and input for context-aware AI assistants. However, current approaches for egocentric activity recognition suffer from low performance or are resource-intensive. In this work, we introduce a resource (memory, compute, power, sample) efficient machine learning algorithm, EgoCHARM, for recognizing both high level and low level activities using a single egocentric (head-mounted) Inertial Measurement Unit (IMU). Our hierarchical algorithm employs a semi-supervised learning strategy, requiring primarily high level activity labels for training, to learn generalizable low level motion embeddings that can be effectively utilized for low level activity recognition. We evaluate our method on 9 high level and 3 low level activities achieving 0.826 and 0.855 F1 scores on high level and low level activity recognition respectively, with just 63k high level and 22k low level model parameters, allowing the low level encoder to be deployed directly on current IMU chips with compute. Lastly, we present results and insights from a sensitivity analysis and highlight the opportunities and limitations of activity recognition using egocentric IMUs.