MicroBi-ConvLSTM: An Ultra-Lightweight Efficient Model for Human Activity Recognition on Resource Constrained Devices

📄 arXiv: 2602.06523v1 📥 PDF

作者: Mridankan Mandal

分类: cs.CV, cs.HC

发布日期: 2026-02-06


💡 一句话要点

提出MicroBi-ConvLSTM,一种用于资源受限设备上的人体活动识别超轻量级高效模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人体活动识别 轻量级模型 卷积神经网络 循环神经网络 双向LSTM 边缘计算 模型量化

📋 核心要点

  1. 现有轻量级HAR模型虽然精度高,但参数量较大,超出微控制器SRAM的内存预算。
  2. MicroBi-ConvLSTM通过卷积特征提取和双向LSTM结合,显著减少模型参数,同时保持线性复杂度。
  3. 实验表明,该模型在多个HAR数据集上表现出竞争力,且量化后部署占用空间极小。

📝 摘要(中文)

本文提出MicroBi-ConvLSTM,一种超轻量级的卷积循环神经网络架构,旨在资源受限的可穿戴设备上实现高效的人体活动识别(HAR)。该模型通过两阶段卷积特征提取(含4倍时间池化)和单层双向LSTM,平均参数量仅为11.4K。相比TinierHAR和DeepConvLSTM,参数量分别减少了2.9倍和11.9倍,同时保持了线性O(N)复杂度。在八个不同的HAR基准测试中,MicroBi-ConvLSTM在超轻量级范围内保持了竞争性的性能:在UCI-HAR上达到93.41%的宏F1值,在SKODA装配手势识别上达到94.46%,在Daphnet步态冻结检测上达到88.98%。消融研究表明,双向性对情景事件检测有益,但对周期性运动增益不大。INT8后训练量化仅导致平均F1分数下降0.21%,从而实现了23.0 KB的平均部署占用空间,适用于内存受限的边缘设备。

🔬 方法详解

问题定义:论文旨在解决资源受限设备上人体活动识别(HAR)模型部署的问题。现有轻量级模型,如TinierHAR和TinyHAR,虽然在精度上表现良好,但其参数量仍然偏大,导致在具有严格内存限制的微控制器上难以部署,尤其是在考虑操作系统开销后。

核心思路:论文的核心思路是通过设计一个参数量极小的卷积-循环神经网络结构,在精度损失可接受的范围内,大幅降低模型大小,使其能够部署在资源受限的边缘设备上。该设计旨在平衡模型复杂度和性能,实现超轻量级的人体活动识别。

技术框架:MicroBi-ConvLSTM模型主要包含两个阶段:卷积特征提取阶段和双向LSTM分类阶段。首先,输入的时间序列数据经过两层卷积层进行特征提取,并使用4倍的时间池化来降低时间维度。然后,提取的特征被输入到单层双向LSTM网络中,以捕获时间序列中的长期依赖关系。最后,LSTM的输出被用于分类,预测人体活动类型。

关键创新:该论文的关键创新在于其超轻量级的模型设计,通过精简的网络结构和参数共享,实现了极低的参数量,同时保持了较好的识别精度。双向LSTM的使用能够更好地捕获时间序列中的上下文信息,尤其是在情景事件检测中。

关键设计:模型使用了两层卷积层进行特征提取,卷积核大小和通道数经过精心设计,以在降低参数量的同时保留关键特征。时间池化操作有效地减少了时间维度,降低了LSTM的计算复杂度。单层双向LSTM的选择也是为了在捕获时间依赖性和控制模型大小之间取得平衡。INT8后训练量化进一步降低了模型的部署占用空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MicroBi-ConvLSTM在多个HAR基准数据集上取得了具有竞争力的结果。例如,在UCI-HAR数据集上,宏F1值达到93.41%;在SKODA装配手势识别上达到94.46%;在Daphnet步态冻结检测上达到88.98%。更重要的是,该模型仅有11.4K参数,并且通过INT8量化后,部署占用空间仅为23.0KB,非常适合资源受限的设备。

🎯 应用场景

MicroBi-ConvLSTM适用于各种资源受限的边缘设备,如智能手表、健身追踪器、智能传感器等。它可以用于实时监测用户的活动状态,提供健康管理、运动分析、跌倒检测等服务。该研究成果有助于推动人工智能在物联网和可穿戴设备领域的应用,实现更智能、更便捷的生活体验。

📄 摘要(原文)

Human Activity Recognition (HAR) on resource constrained wearables requires models that balance accuracy against strict memory and computational budgets. State of the art lightweight architectures such as TinierHAR (34K parameters) and TinyHAR (55K parameters) achieve strong accuracy, but exceed memory budgets of microcontrollers with limited SRAM once operating system overhead is considered. We present MicroBi-ConvLSTM, an ultra-lightweight convolutional-recurrent architecture achieving 11.4K parameters on average through two stage convolutional feature extraction with 4x temporal pooling and a single bidirectional LSTM layer. This represents 2.9x parameter reduction versus TinierHAR and 11.9x versus DeepConvLSTM while preserving linear O(N) complexity. Evaluation across eight diverse HAR benchmarks shows that MicroBi-ConvLSTM maintains competitive performance within the ultra-lightweight regime: 93.41% macro F1 on UCI-HAR, 94.46% on SKODA assembly gestures, and 88.98% on Daphnet gait freeze detection. Systematic ablation reveals task dependent component contributions where bidirectionality benefits episodic event detection, but provides marginal gains on periodic locomotion. INT8 post training quantization incurs only 0.21% average F1-score degradation, yielding a 23.0 KB average deployment footprint suitable for memory constrained edge devices.