WiFi-based Cross-Domain Gesture Recognition Using Attention Mechanism
作者: Ruijing Liu, Cunhua Pan, Jiaming Zeng, Hong Ren, Kezhi Wang, Lei Kong, Jiangzhou Wang
分类: cs.CV, eess.SP
发布日期: 2025-12-04
💡 一句话要点
提出基于注意力机制的WiFi跨域手势识别方法,提升泛化能力。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: WiFi感知 手势识别 跨域学习 注意力机制 信道状态信息
📋 核心要点
- 现有手势识别方法在特定环境表现良好,但在未训练环境中性能显著下降,缺乏跨域泛化能力。
- 论文提出一种基于注意力机制的网络,通过提取领域无关的时空特征,增强模型在不同环境下的适应性。
- 实验结果表明,该方法在Widar3数据集上,域内精度达到99.72%,跨域精度达到97.61%,显著优于现有方法。
📝 摘要(中文)
本文研究了基于WiFi信号的手势识别问题,利用无线信号在完成通信任务的同时感知环境。针对现有手势识别方案在域内表现良好但缺乏跨域能力的问题,本文提出了一种新的解决方案。该方案从所有接收器接收到的信道状态信息(CSI)中提取多普勒频谱,并将每个多普勒频谱沿时间轴连接,生成包含多角度信息的融合图像作为输入特征。此外,受卷积块注意力模块(CBAM)的启发,本文提出了一种集成了多语义空间注意力机制和基于自注意力的通道机制的手势识别网络。该网络构建注意力图以量化图像中手势的时空特征,从而提取关键的领域无关特征。同时,采用ResNet18作为骨干网络,进一步捕获深层特征。在公共Widar3数据集上的评估结果表明,该网络不仅保持了99.72%的高域内精度,而且在跨域识别中实现了97.61%的高性能,显著优于现有的最佳解决方案。
🔬 方法详解
问题定义:现有基于WiFi的手势识别方法在特定环境下表现良好,但当环境发生变化(例如,房间布局、人员数量等)时,识别精度会显著下降。这是因为模型过度拟合了特定环境的特征,缺乏跨域泛化能力。因此,需要一种能够提取领域无关特征的手势识别方法,以提高模型在不同环境下的鲁棒性。
核心思路:论文的核心思路是利用注意力机制来提取手势的时空特征,并抑制环境因素的干扰。通过构建注意力图,模型可以关注图像中与手势相关的关键区域,从而提取领域无关的特征。同时,结合多角度信息和深层特征提取,进一步提高模型的识别精度和泛化能力。
技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:从CSI数据中提取多普勒频谱,并将不同接收器的多普勒频谱沿时间轴拼接,形成融合图像。2) 特征提取:使用ResNet18作为骨干网络,提取图像的深层特征。3) 注意力机制:引入多语义空间注意力机制和自注意力通道机制,构建注意力图,提取关键的时空特征。4) 分类:使用全连接层将提取的特征映射到不同的手势类别。
关键创新:论文的关键创新在于提出了一个集成了多语义空间注意力机制和自注意力通道机制的手势识别网络。该网络能够有效地提取领域无关的时空特征,从而提高模型的跨域泛化能力。与传统的卷积神经网络相比,该网络能够更好地关注图像中与手势相关的关键区域,抑制环境因素的干扰。
关键设计:在注意力机制方面,论文采用了卷积块注意力模块(CBAM)的思想,并进行了改进。具体来说,多语义空间注意力机制通过多个卷积核提取不同尺度的空间特征,然后使用注意力机制对这些特征进行加权融合。自注意力通道机制则通过自注意力机制学习不同通道之间的依赖关系,从而提取更具判别性的特征。此外,ResNet18的参数采用ImageNet预训练权重进行初始化,以加速模型的收敛。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在公共Widar3数据集上取得了显著的性能提升。在域内识别中,精度达到99.72%。更重要的是,在跨域识别中,精度达到97.61%,显著优于现有的最佳解决方案。这表明该方法具有很强的跨域泛化能力,能够在不同环境下保持较高的识别精度。
🎯 应用场景
该研究成果可应用于智能家居、人机交互、安全监控等领域。例如,用户可以通过手势控制智能家居设备,无需接触任何物理设备。在安全监控领域,可以通过手势识别来检测异常行为,提高安全性。未来,该技术有望进一步发展,实现更复杂、更自然的人机交互方式。
📄 摘要(原文)
While fulfilling communication tasks, wireless signals can also be used to sense the environment. Among various types of sensing media, WiFi signals offer advantages such as widespread availability, low hardware cost, and strong robustness to environmental conditions like light, temperature, and humidity. By analyzing Wi-Fi signals in the environment, it is possible to capture dynamic changes of the human body and accomplish sensing applications such as gesture recognition. Although many existing gesture sensing solutions perform well in-domain but lack cross-domain capabilities (i.e., recognition performance in untrained environments). To address this, we extract Doppler spectra from the channel state information (CSI) received by all receivers and concatenate each Doppler spectrum along the same time axis to generate fused images with multi-angle information as input features. Furthermore, inspired by the convolutional block attention module (CBAM), we propose a gesture recognition network that integrates a multi-semantic spatial attention mechanism with a self-attention-based channel mechanism. This network constructs attention maps to quantify the spatiotemporal features of gestures in images, enabling the extraction of key domain-independent features. Additionally, ResNet18 is employed as the backbone network to further capture deep-level features. To validate the network performance, we evaluate the proposed network on the public Widar3 dataset, and the results show that it not only maintains high in-domain accuracy of 99.72%, but also achieves high performance in cross-domain recognition of 97.61%, significantly outperforming existing best solutions.