USAD: End-to-End Human Activity Recognition via Diffusion Model with Spatiotemporal Attention
作者: Hang Xiao, Ying Yu, Jiarui Li, Zhifan Yang, Haotian Tang, Hanyu Liu, Chao Li
分类: cs.CV, cs.AI
发布日期: 2025-07-03 (更新: 2025-07-11)
💡 一句话要点
提出USAD,利用扩散模型与时空注意力进行端到端的人体活动识别。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 人体活动识别 扩散模型 时空注意力 数据增强 多尺度特征提取
📋 核心要点
- 人体活动识别面临标记数据稀缺、高层特征提取不足以及轻量级设备性能受限等挑战。
- USAD利用无监督扩散模型进行数据增强,并设计多分支时空交互网络提取多尺度特征。
- 在WISDM、PAMAP2和OPPORTUNITY数据集上,USAD的准确率分别达到98.84%、93.81%和80.92%,优于现有方法。
📝 摘要(中文)
人体活动识别(HAR)的主要目标是从传感器数据中推断正在进行的人类活动,该任务在健康监测、安全保护和运动分析中有着广泛的应用。尽管研究不断涌现,但HAR仍然面临着关键挑战,包括稀有活动标记样本的稀缺、高层特征提取不足以及轻量级设备上的次优模型性能。为了解决这些问题,本文提出了一种以多注意力交互机制为中心的综合优化方法。首先,采用一种无监督的、统计引导的扩散模型来执行数据增强,从而缓解了标记数据稀缺和严重的类不平衡问题。其次,设计了一个多分支时空交互网络,该网络通过具有33、55和7*7卷积核的并行残差分支捕获序列数据的多尺度特征。同时,结合时间注意力机制来识别关键时间点,而空间注意力增强了传感器间的交互。进一步引入了跨分支特征融合单元,以提高整体特征表示能力。最后,集成了一种自适应多损失函数融合策略,允许动态调整损失权重和整体模型优化。在WISDM、PAMAP2和OPPORTUNITY三个公共数据集上的实验结果表明,所提出的无监督数据增强时空注意力扩散网络(USAD)分别实现了98.84%、93.81%和80.92%的准确率,显著优于现有方法。此外,在嵌入式设备上的实际部署验证了该方法的效率和可行性。
🔬 方法详解
问题定义:论文旨在解决人体活动识别中标记数据不足,特征提取能力有限,以及模型在轻量级设备上表现不佳的问题。现有方法难以有效处理类别不平衡,无法充分利用时空信息,并且难以在资源受限的设备上部署。
核心思路:论文的核心思路是利用无监督扩散模型进行数据增强,缓解数据稀缺和类别不平衡问题。同时,设计多分支时空交互网络,通过并行卷积分支提取多尺度特征,并利用注意力机制增强关键时间点和传感器间的交互,从而提升特征表示能力。
技术框架:USAD的整体框架包含以下几个主要模块:1) 无监督扩散模型:用于生成新的训练样本,缓解数据稀缺问题。2) 多分支时空交互网络:包含多个并行的残差卷积分支,分别使用不同大小的卷积核提取多尺度特征;时间注意力机制用于关注关键时间点;空间注意力机制用于增强传感器间的交互。3) 跨分支特征融合单元:用于融合不同分支提取的特征,提升整体特征表示能力。4) 自适应多损失函数融合策略:动态调整不同损失函数的权重,优化模型训练。
关键创新:USAD的关键创新在于:1) 引入无监督扩散模型进行数据增强,有效缓解了标记数据稀缺和类别不平衡问题。2) 设计了多分支时空交互网络,能够同时捕获多尺度时空特征,并利用注意力机制增强关键信息。3) 提出了自适应多损失函数融合策略,能够动态调整损失权重,优化模型训练。
关键设计:1) 卷积分支采用33、55和7*7三种不同大小的卷积核,以捕获不同尺度的特征。2) 时间注意力机制采用标准的自注意力机制,用于关注序列中的关键时间点。3) 空间注意力机制用于学习不同传感器之间的依赖关系。4) 自适应多损失函数融合策略根据训练过程中的损失变化动态调整权重。
🖼️ 关键图片
📊 实验亮点
USAD在三个公开数据集上取得了显著的性能提升。在WISDM数据集上,USAD的准确率达到98.84%,在PAMAP2数据集上达到93.81%,在OPPORTUNITY数据集上达到80.92%。相较于现有方法,USAD在各个数据集上均取得了显著的性能提升,验证了其有效性。此外,在嵌入式设备上的部署验证了USAD的效率和可行性。
🎯 应用场景
USAD可应用于健康监测,通过识别日常活动来评估老年人或慢性病患者的健康状况。在安全保护领域,可用于检测异常行为,例如跌倒或非法入侵。在运动分析中,可用于评估运动员的训练效果和技术动作的规范性。该研究有助于提升人体活动识别的准确性和鲁棒性,并推动其在各个领域的广泛应用。
📄 摘要(原文)
The primary objective of human activity recognition (HAR) is to infer ongoing human actions from sensor data, a task that finds broad applications in health monitoring, safety protection, and sports analysis. Despite proliferating research, HAR still faces key challenges, including the scarcity of labeled samples for rare activities, insufficient extraction of high-level features, and suboptimal model performance on lightweight devices. To address these issues, this paper proposes a comprehensive optimization approach centered on multi-attention interaction mechanisms. First, an unsupervised, statistics-guided diffusion model is employed to perform data augmentation, thereby alleviating the problems of labeled data scarcity and severe class imbalance. Second, a multi-branch spatio-temporal interaction network is designed, which captures multi-scale features of sequential data through parallel residual branches with 33, 55, and 7*7 convolutional kernels. Simultaneously, temporal attention mechanisms are incorporated to identify critical time points, while spatial attention enhances inter-sensor interactions. A cross-branch feature fusion unit is further introduced to improve the overall feature representation capability. Finally, an adaptive multi-loss function fusion strategy is integrated, allowing for dynamic adjustment of loss weights and overall model optimization. Experimental results on three public datasets, WISDM, PAMAP2, and OPPORTUNITY, demonstrate that the proposed unsupervised data augmentation spatio-temporal attention diffusion network (USAD) achieves accuracies of 98.84%, 93.81%, and 80.92% respectively, significantly outperforming existing approaches. Furthermore, practical deployment on embedded devices verifies the efficiency and feasibility of the proposed method.