TxP: Reciprocal Generation of Ground Pressure Dynamics and Activity Descriptions for Improving Human Activity Recognition

📄 arXiv: 2505.02052v1 📥 PDF

作者: Lala Shakti Swarup Ray, Lars Krupp, Vitor Fortes Rey, Bo Zhou, Sungho Suh, Paul Lukowicz

分类: cs.AI, cs.CV

发布日期: 2025-05-04


💡 一句话要点

提出TxP模型,通过压力与文本双向生成提升人体活动识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 压力传感器 生成式模型 数据增强 双向生成

📋 核心要点

  1. 压力传感器在人体活动识别中潜力巨大,但缺乏数据集限制了其应用。
  2. TxP模型利用文本与压力双向生成,实现数据增强和活动分类。
  3. 实验表明,TxP在真实数据上显著提升了人体活动识别的性能。

📝 摘要(中文)

本文提出了一种基于生成式模型的压力传感器人体活动识别(HAR)方法,旨在解决压力传感器数据在HAR领域中因数据集有限而未被充分利用的问题。该方法提出了一个双向Text×Pressure模型(TxP),利用生成式模型将压力数据解释为自然语言。TxP执行两个任务:Text2Pressure,将活动文本描述转换为压力序列;Pressure2Text,从动态压力图中生成活动描述和分类。TxP利用预训练模型CLIP和LLaMA 2 13B Chat,在包含超过81,100个文本-压力对的合成PressLang数据集上进行训练。在瑜伽和日常任务等真实世界数据上的验证表明,TxP为数据增强和基于原子动作的分类提供了新方法,从而将HAR性能提高了高达12.4%(宏F1分数),推动了基于压力的HAR发展,并为人类运动提供了更广泛的应用和更深入的见解。

🔬 方法详解

问题定义:现有的人体活动识别(HAR)方法主要依赖于惯性测量单元(IMU)和视觉数据,忽略了压力传感器捕捉身体动态和重心变化的能力。压力传感器在姿势和平衡相关活动中具有潜力,但由于数据集的限制,其在HAR领域中的应用不足。因此,需要解决的问题是如何利用有限的压力传感器数据,提升HAR的性能。

核心思路:本文的核心思路是利用生成式模型,建立文本和压力数据之间的桥梁,实现双向转换。通过将活动文本描述转换为压力序列(Text2Pressure)和从压力数据生成活动描述(Pressure2Text),实现数据增强和活动分类。这种双向生成的方式可以有效利用已有的文本信息,弥补压力传感器数据不足的缺陷。

技术框架:TxP模型包含两个主要模块:Text2Pressure和Pressure2Text。Text2Pressure模块将活动文本描述作为输入,利用预训练的语言模型(如LLaMA 2)生成对应的压力序列。Pressure2Text模块将动态压力图作为输入,利用预训练的视觉模型(如CLIP)提取特征,并生成活动描述和分类结果。这两个模块共同构成了一个双向生成框架,可以相互促进,提升HAR的性能。整个流程包括数据预处理、模型训练和评估三个阶段。

关键创新:最重要的技术创新点在于双向生成框架的设计,它将文本和压力数据联系起来,实现了数据增强和活动分类的统一。与传统的单向HAR方法相比,TxP可以更好地利用已有的文本信息,弥补压力传感器数据不足的缺陷。此外,利用预训练模型CLIP和LLaMA 2,可以有效提取文本和压力数据的特征,提升模型的泛化能力。

关键设计:TxP模型使用了预训练的CLIP模型进行压力数据特征提取,以及LLaMA 2 13B Chat模型进行文本生成。模型在合成的PressLang数据集上进行训练,该数据集包含超过81,100个文本-压力对。损失函数的设计包括文本生成损失和压力序列生成损失,用于优化模型的生成能力。具体的网络结构和参数设置在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TxP模型在真实世界数据上进行了验证,包括瑜伽和日常任务等活动。实验结果表明,TxP模型在宏F1分数上比现有技术提高了高达12.4%。这表明TxP模型在压力传感器人体活动识别方面具有显著的优势,能够有效提升HAR的性能。

🎯 应用场景

该研究成果可应用于智能家居、医疗健康、运动监测等领域。例如,可以通过分析用户的压力数据,识别其日常活动,提供个性化的健康建议。在医疗领域,可以用于监测患者的康复情况,评估治疗效果。在运动领域,可以用于分析运动员的动作,提高训练效率。未来,该技术有望应用于更广泛的人机交互场景,提升用户体验。

📄 摘要(原文)

Sensor-based human activity recognition (HAR) has predominantly focused on Inertial Measurement Units and vision data, often overlooking the capabilities unique to pressure sensors, which capture subtle body dynamics and shifts in the center of mass. Despite their potential for postural and balance-based activities, pressure sensors remain underutilized in the HAR domain due to limited datasets. To bridge this gap, we propose to exploit generative foundation models with pressure-specific HAR techniques. Specifically, we present a bidirectional Text$\times$Pressure model that uses generative foundation models to interpret pressure data as natural language. TxP accomplishes two tasks: (1) Text2Pressure, converting activity text descriptions into pressure sequences, and (2) Pressure2Text, generating activity descriptions and classifications from dynamic pressure maps. Leveraging pre-trained models like CLIP and LLaMA 2 13B Chat, TxP is trained on our synthetic PressLang dataset, containing over 81,100 text-pressure pairs. Validated on real-world data for activities such as yoga and daily tasks, TxP provides novel approaches to data augmentation and classification grounded in atomic actions. This consequently improved HAR performance by up to 12.4\% in macro F1 score compared to the state-of-the-art, advancing pressure-based HAR with broader applications and deeper insights into human movement.