VST-Pose: A Velocity-Integrated Spatiotem-poral Attention Network for Human WiFi Pose Estimation

作者: Xinyu Zhang, Zhonghao Ye, Jingwei Zhang, Xiang Tian, Zhisheng Liang, Shipeng Yu

分类: cs.CV

发布日期: 2025-07-13

备注: 8 pages, 7 figures, 8 tables. WiFi CSI, VST-Pose framework + ViSTA-Former dual-stream attention backbone. Code: https://github.com/CarmenQing/VST-Pose

🔗 代码/项目: GITHUB

💡 一句话要点

VST-Pose：基于WiFi和时空注意力网络的人体姿态估计，应用于智能家居

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: WiFi姿态估计 时空注意力网络 双流网络 速度建模 智能家居 人体运动分析 深度学习

📋 核心要点

现有基于WiFi的姿态估计方法在捕捉细微运动和建模关节间关系方面存在不足，影响了估计精度。
VST-Pose通过双流时空注意力网络ViSTA-Former，分别建模时间依赖性和关节结构关系，并引入速度建模分支增强运动敏感性。
在自建数据集上，VST-Pose在PCK@50指标上达到92.2%的准确率，超越现有方法8.3%，并在公共数据集上验证了其鲁棒性。

📝 摘要（中文）

本文提出了一种名为VST-Pose的深度学习框架，用于利用WiFi信道状态信息进行精确和连续的人体姿态估计。该方法引入了ViSTA-Former，一个具有双流架构的时空注意力骨干网络，分别捕获时间依赖性和身体关节之间的结构关系。为了增强对细微人体运动的敏感性，框架中集成了一个速度建模分支，学习短期关键点位移模式，并改进细粒度的运动表示。我们构建了一个专门为智能家居护理场景设计的2D姿态数据集，并证明我们的方法在PCK@50指标上达到了92.2%的准确率，在自收集数据集上优于现有方法8.3%。在公共MMFi数据集上的进一步评估证实了该模型在3D姿态估计任务中的鲁棒性和有效性。该系统为室内环境中连续的人体运动分析提供了一种可靠且注重隐私的解决方案。代码已开源。

🔬 方法详解

问题定义：现有基于WiFi的人体姿态估计方法通常难以捕捉细微的人体运动，并且在建模人体关节之间的结构关系方面存在不足，导致姿态估计的精度受限。尤其是在智能家居等需要高精度姿态估计的场景下，这些问题尤为突出。

核心思路：VST-Pose的核心思路是利用双流时空注意力网络同时建模人体运动的时间依赖性和关节间的结构关系。通过引入速度建模分支，增强模型对细微运动的感知能力，从而提高姿态估计的精度和鲁棒性。这种设计旨在克服现有方法在处理复杂和细微人体运动时的局限性。

技术框架：VST-Pose的整体框架包含以下几个主要模块：首先，输入WiFi信道状态信息（CSI）。然后，通过ViSTA-Former进行特征提取，ViSTA-Former是一个双流时空注意力网络，包含时间流和空间流，分别用于捕获时间依赖性和关节结构关系。此外，还有一个速度建模分支，用于学习关键点的短期位移模式。最后，将提取的特征融合，并输出人体姿态估计结果。

关键创新：VST-Pose的关键创新在于ViSTA-Former双流时空注意力网络和速度建模分支的结合。ViSTA-Former能够同时建模时间依赖性和空间结构关系，而速度建模分支则增强了模型对细微运动的敏感性。这种结合使得VST-Pose能够更准确地估计人体姿态，尤其是在复杂和细微运动场景下。与现有方法相比，VST-Pose在特征提取和运动建模方面具有显著优势。

关键设计：ViSTA-Former采用Transformer结构，时间流和空间流分别使用自注意力机制来建模时间依赖性和关节结构关系。速度建模分支通过计算相邻时间步关键点的位置差来表示运动速度。损失函数包括姿态估计损失和速度建模损失，共同优化模型。具体的网络结构参数（如Transformer层数、注意力头数等）和训练参数（如学习率、batch size等）需要在实验中进行调整。

📊 实验亮点

VST-Pose在自建的智能家居2D姿态数据集上取得了显著的性能提升，在PCK@50指标上达到了92.2%的准确率，相比现有方法提高了8.3%。此外，在公共MMFi 3D姿态数据集上的评估也验证了模型的鲁棒性和有效性。这些实验结果表明，VST-Pose在基于WiFi的人体姿态估计方面具有很强的竞争力。

🎯 应用场景

VST-Pose在智能家居、远程医疗、老人看护等领域具有广泛的应用前景。它可以用于监测老年人的日常活动，识别跌倒等异常行为，并提供及时的帮助。此外，该技术还可以应用于康复训练，通过分析患者的运动姿态，评估康复效果并提供个性化的训练方案。由于其非侵入性和隐私保护特性，VST-Pose在这些场景下具有独特的优势。

📄 摘要（原文）

WiFi-based human pose estimation has emerged as a promising non-visual alternative approaches due to its pene-trability and privacy advantages. This paper presents VST-Pose, a novel deep learning framework for accurate and continuous pose estimation using WiFi channel state information. The proposed method introduces ViSTA-Former, a spatiotemporal attention backbone with dual-stream architecture that adopts a dual-stream architecture to separately capture temporal dependencies and structural relationships among body joints. To enhance sensitivity to subtle human motions, a velocity modeling branch is integrated into the framework, which learns short-term keypoint dis-placement patterns and improves fine-grained motion representation. We construct a 2D pose dataset specifically designed for smart home care scenarios and demonstrate that our method achieves 92.2% accuracy on the PCK@50 metric, outperforming existing methods by 8.3% in PCK@50 on the self-collected dataset. Further evaluation on the public MMFi dataset confirms the model's robustness and effectiveness in 3D pose estimation tasks. The proposed system provides a reliable and privacy-aware solution for continuous human motion analysis in indoor environments. Our codes are available in https://github.com/CarmenQing/VST-Pose.

VST-Pose: A Velocity-Integrated Spatiotem-poral Attention Network for Human WiFi Pose Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理