Masked Autoencoder with Swin Transformer Network for Mitigating Electrode Shift in HD-EMG-based Gesture Recognition

📄 arXiv: 2410.17261v1 📥 PDF

作者: Kasra Laamerad, Mehran Shabanpour, Md. Rabiul Islam, Arash Mohammadi

分类: eess.SP, cs.AI, cs.LG

发布日期: 2024-10-07


💡 一句话要点

提出基于Swin Transformer的掩码自编码器(MAST)框架,以缓解HD-EMG手势识别中的电极漂移问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: HD-sEMG 手势识别 电极漂移 掩码自编码器 Swin Transformer 自监督学习 肌电控制

📋 核心要点

  1. HD-sEMG手势识别易受电极漂移影响,导致跨个体和会话的性能下降,现有方法难以有效应对。
  2. 论文提出MAST框架,通过掩码策略和多路径Swin-Unet架构,学习对电极漂移鲁棒的潜在表示。
  3. 实验结果表明,MAST框架在HD-sEMG手势识别中,相较于其他方法,具有更优越的性能。

📝 摘要(中文)

多通道表面肌电图(sEMG),也称为高密度sEMG(HD-sEMG),在提高肌电控制的手势识别性能方面起着至关重要的作用。然而,基于HD-sEMG开发的模式识别模型容易受到记录条件变化的影响(例如,由于电极漂移引起的信号变化)。这导致了跨受试者和会话的性能显著下降。为此,本文提出了一种基于Swin Transformer的掩码自编码器(MAST)框架,该框架在HD-sEMG通道的掩码子集上进行训练。结合四种掩码策略,即随机块掩码、时间掩码、传感器随机掩码和多尺度掩码,以学习潜在表示并提高对电极漂移的鲁棒性。然后,掩码数据通过MAST的三路径编码器-解码器结构,利用多路径Swin-Unet架构,同时捕获底层HD-sEMG信号的时域、频域和幅度特征。这些增强的输入以自监督预训练的方式使用,以提高模型的泛化能力。实验结果表明,所提出的MAST框架与同类框架相比具有优越的性能。

🔬 方法详解

问题定义:论文旨在解决高密度表面肌电图(HD-sEMG)手势识别中,由于电极漂移导致的性能下降问题。现有的模式识别模型对记录条件的变化非常敏感,电极位置的微小变化都会显著影响模型的准确性和泛化能力,尤其是在跨个体和跨会话的情况下,这一问题更为突出。

核心思路:论文的核心思路是通过掩码自编码器(Masked Autoencoder)结合Swin Transformer,学习对电极漂移具有鲁棒性的特征表示。通过在训练过程中随机掩盖部分HD-sEMG通道的信息,迫使模型从剩余的通道中学习更具泛化能力的特征,从而提高模型对电极漂移的适应性。

技术框架:MAST框架包含三个主要部分:掩码策略、编码器和解码器。首先,使用四种不同的掩码策略(随机块掩码、时间掩码、传感器随机掩码和多尺度掩码)对HD-sEMG数据进行掩码。然后,掩码后的数据输入到基于Swin Transformer的编码器中,提取特征表示。最后,解码器利用多路径Swin-Unet架构,同时捕获时域、频域和幅度特征,并重构原始HD-sEMG信号。整个框架采用自监督预训练的方式进行训练。

关键创新:该论文的关键创新在于将掩码自编码器与Swin Transformer结合,并设计了多种掩码策略,以提高模型对电极漂移的鲁棒性。与传统的基于完整数据的训练方法不同,MAST框架通过掩码部分输入,迫使模型学习更具泛化能力的特征表示。此外,多路径Swin-Unet架构能够同时捕获HD-sEMG信号的时域、频域和幅度特征,从而更全面地理解信号的内在信息。

关键设计:论文采用了四种掩码策略,分别是随机块掩码(随机掩盖一部分连续的通道)、时间掩码(随机掩盖一部分时间步)、传感器随机掩码(随机掩盖一部分传感器)和多尺度掩码(结合不同尺度的掩码策略)。编码器和解码器均基于Swin Transformer构建,利用其强大的特征提取能力。损失函数采用重构损失,即最小化重构后的HD-sEMG信号与原始信号之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的MAST框架在HD-sEMG手势识别任务中,相较于其他方法,具有更优越的性能。具体的性能数据(例如,准确率、F1-score等)以及与哪些基线方法进行了对比,需要在论文中查找。论文强调MAST框架能够有效缓解电极漂移带来的影响,提高模型的泛化能力。

🎯 应用场景

该研究成果可应用于肌电控制、康复机器人、虚拟现实等领域。通过提高HD-sEMG手势识别的鲁棒性,可以实现更自然、更可靠的人机交互,帮助残疾人士更好地控制假肢或外骨骼,提升生活质量。此外,该方法还可以应用于运动分析、疲劳监测等领域。

📄 摘要(原文)

Multi-channel surface Electromyography (sEMG), also referred to as high-density sEMG (HD-sEMG), plays a crucial role in improving gesture recognition performance for myoelectric control. Pattern recognition models developed based on HD-sEMG, however, are vulnerable to changing recording conditions (e.g., signal variability due to electrode shift). This has resulted in significant degradation in performance across subjects, and sessions. In this context, the paper proposes the Masked Autoencoder with Swin Transformer (MAST) framework, where training is performed on a masked subset of HDsEMG channels. A combination of four masking strategies, i.e., random block masking; temporal masking; sensor-wise random masking, and; multi-scale masking, is used to learn latent representations and increase robustness against electrode shift. The masked data is then passed through MAST's three-path encoder-decoder structure, leveraging a multi-path Swin-Unet architecture that simultaneously captures time-domain, frequency-domain, and magnitude-based features of the underlying HD-sEMG signal. These augmented inputs are then used in a self-supervised pre-training fashion to improve the model's generalization capabilities. Experimental results demonstrate the superior performance of the proposed MAST framework in comparison to its counterparts.