TSAK: Two-Stage Semantic-Aware Knowledge Distillation for Efficient Wearable Modality and Model Optimization in Manufacturing Lines

📄 arXiv: 2408.14146v1 📥 PDF

作者: Hymalai Bello, Daniel Geißler, Sungho Suh, Bo Zhou, Paul Lukowicz

分类: cs.LG, eess.SP

发布日期: 2024-08-26

备注: Accepted in 27th International Conference on Pattern Recognition (ICPR)


💡 一句话要点

TSAK:面向智能工厂可穿戴设备高效人体活动识别的双阶段语义感知知识蒸馏

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 人体活动识别 可穿戴设备 智能工厂 模型优化 多模态学习 边缘计算

📋 核心要点

  1. 现有基于可穿戴传感器的人体活动识别系统面临模型复杂、功耗高的问题,限制了其在智能工厂等场景的应用。
  2. TSAK方法通过两阶段知识蒸馏,将大型多模态教师模型的知识迁移到小型单模态学生模型,实现模型压缩和模态优化。
  3. 实验表明,TSAK方法在保证识别性能的同时,显著降低了模型参数量、计算复杂度和功耗,提升了效率。

📝 摘要(中文)

本文提出了一种双阶段语义感知知识蒸馏(TSAK)方法,用于智能工厂中高效、保护隐私且基于可穿戴设备的人体活动识别(HAR)。该方法旨在减少输入传感器模态和机器学习模型的大小,同时达到与大型多模态、多位置教师模型相似的识别性能。第一阶段包含一个编码注意力、因果和组合表示的教师分类器模型。第二阶段包含一个语义分类器,合并来自第一阶段的三个表示。通过在智能工厂测试平台上记录的多模态数据集(IMU和电容传感器位于工人双手)以及OpenPack数据集对TSAK进行评估。实验结果表明,与大型教师模型相比,学生模型仅需来自单手的少量传感器通道,参数减少79%,运行速度提高8.88倍,计算能力需求降低96.6%。

🔬 方法详解

问题定义:论文旨在解决智能工厂环境下,可穿戴设备进行人体活动识别时,模型复杂度高、功耗大,以及需要多模态传感器数据的问题。现有方法通常依赖大型模型和多传感器融合,导致计算资源消耗高,电池续航短,难以部署在资源受限的可穿戴设备上。

核心思路:论文的核心思路是利用知识蒸馏技术,将一个大型、多模态的教师模型的知识迁移到一个小型、单模态的学生模型。通过语义感知的蒸馏过程,学生模型能够学习到教师模型提取的关键特征和表示,从而在减少模型复杂度的同时,保持较高的识别精度。

技术框架:TSAK方法包含两个主要阶段:第一阶段是训练一个大型的教师模型,该模型能够处理多模态传感器数据,并提取注意力、因果和组合表示。第二阶段是利用知识蒸馏技术,将教师模型的知识迁移到一个小型学生模型。学生模型接收来自单手的传感器数据,并学习教师模型提取的语义表示。

关键创新:TSAK的关键创新在于其双阶段语义感知知识蒸馏框架。第一阶段通过注意力、因果和组合表示来捕捉不同模态和时间依赖关系,第二阶段通过语义分类器融合这些表示,并将融合后的知识蒸馏到学生模型中。这种方法能够有效地将教师模型的知识迁移到学生模型,同时减少模型复杂度和传感器模态需求。

关键设计:教师模型采用包含注意力机制和因果卷积的网络结构,以捕捉不同传感器模态之间的关联和时间依赖关系。损失函数包括分类损失和蒸馏损失,蒸馏损失用于衡量学生模型和教师模型输出之间的差异。学生模型采用较小的网络结构,并使用单手传感器数据作为输入。通过调整蒸馏损失的权重,可以控制知识迁移的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与大型教师模型相比,TSAK方法训练的学生模型参数量减少79%,运行速度提高8.88倍,计算能力需求降低96.6%,同时保持了相近的识别精度。在OpenPack数据集上,TSAK方法也取得了良好的效果,验证了其在不同数据集上的泛化能力。这些结果表明,TSAK方法能够有效地实现模型压缩和模态优化,提升了可穿戴设备在人体活动识别任务中的效率。

🎯 应用场景

该研究成果可应用于智能工厂、医疗健康等领域。在智能工厂中,可用于优化人机协作,提高生产效率和安全性。在医疗健康领域,可用于远程健康监测、康复训练等应用,降低设备功耗,延长电池续航,提升用户体验。未来,该方法有望推广到其他资源受限的边缘计算场景。

📄 摘要(原文)

Smaller machine learning models, with less complex architectures and sensor inputs, can benefit wearable sensor-based human activity recognition (HAR) systems in many ways, from complexity and cost to battery life. In the specific case of smart factories, optimizing human-robot collaboration hinges on the implementation of cutting-edge, human-centric AI systems. To this end, workers' activity recognition enables accurate quantification of performance metrics, improving efficiency holistically. We present a two-stage semantic-aware knowledge distillation (KD) approach, TSAK, for efficient, privacy-aware, and wearable HAR in manufacturing lines, which reduces the input sensor modalities as well as the machine learning model size, while reaching similar recognition performance as a larger multi-modal and multi-positional teacher model. The first stage incorporates a teacher classifier model encoding attention, causal, and combined representations. The second stage encompasses a semantic classifier merging the three representations from the first stage. To evaluate TSAK, we recorded a multi-modal dataset at a smart factory testbed with wearable and privacy-aware sensors (IMU and capacitive) located on both workers' hands. In addition, we evaluated our approach on OpenPack, the only available open dataset mimicking the wearable sensor placements on both hands in the manufacturing HAR scenario. We compared several KD strategies with different representations to regulate the training process of a smaller student model. Compared to the larger teacher model, the student model takes fewer sensor channels from a single hand, has 79% fewer parameters, runs 8.88 times faster, and requires 96.6% less computing power (FLOPS).