Improving Out-of-distribution Human Activity Recognition via IMU-Video Cross-modal Representation Learning

作者: Seyyed Saeid Cheshmi, Buyao Lyu, Thomas Lisko, Rajesh Rajamani, Robert A. McGovern, Yogatheesan Varatharajah

分类: cs.LG, cs.CV

发布日期: 2025-07-17

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于IMU-视频跨模态表征学习的OOD人体活动识别方法，提升泛化性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人体活动识别 跨模态学习 自监督学习 分布外泛化 IMU数据 视频数据 远程健康监测

📋 核心要点

现有基于IMU的人体活动识别方法依赖特定标签，缺乏对不同环境或人群数据的泛化能力。
利用大规模无标签IMU-视频数据，通过跨模态自监督预训练学习通用表征，提升模型泛化性。
实验表明，该方法在OOD数据集上优于现有IMU-视频预训练和仅IMU预训练方法，尤其在零样本和少样本场景。

📝 摘要（中文）

本文提出了一种新的跨模态自监督预训练方法，用于从大规模无标签IMU-视频数据中学习表征，并展示了其在分布外(OOD) IMU数据集上人体活动识别(HAR)任务中改进的泛化能力，包括来自帕金森病患者的数据集。结果表明，所提出的跨模态预训练方法在零样本和少样本评估下，优于当前最先进的IMU-视频预训练方法和仅IMU预训练方法。该研究表明，在高度动态的数据模态（如IMU信号）中，跨模态预训练可能是学习通用数据表征的有效工具。提供的软件可在https://github.com/scheshmi/IMU-Video-OOD-HAR获取。

🔬 方法详解

问题定义：论文旨在解决人体活动识别(HAR)模型在分布外(OOD)数据上的泛化性问题。现有方法通常依赖于特定应用场景的标注数据进行训练，导致模型在新的环境或人群数据上表现不佳。尤其是在医疗健康领域，患者的个体差异和环境变化使得模型难以适应。

核心思路：论文的核心思路是利用跨模态自监督学习，从大规模无标注的IMU-视频数据中学习通用的数据表征。通过将IMU数据和视频数据进行关联，模型可以学习到与特定标签无关的、更具泛化能力的特征表示。这种方法可以有效利用大量的无标注数据，提高模型在OOD数据上的表现。

技术框架：整体框架包含两个主要阶段：预训练阶段和微调阶段。在预训练阶段，模型使用大量的无标注IMU-视频数据进行跨模态自监督学习，学习IMU和视频数据之间的关联性。在微调阶段，模型使用少量的标注数据在目标任务上进行微调，以适应特定的应用场景。模型架构的具体细节（如使用的神经网络类型）在论文中应该有更详细的描述。

关键创新：该论文的关键创新在于提出了基于IMU-视频跨模态学习的OOD人体活动识别方法。与传统的仅使用IMU数据或使用特定标签进行训练的方法不同，该方法利用了跨模态信息，学习到了更具泛化能力的特征表示。此外，该方法还采用了自监督学习的方式，可以有效利用大量的无标注数据。

关键设计：具体的网络结构、损失函数和训练策略等关键设计细节需要在论文中查找。例如，可能使用了对比学习损失来最大化IMU和视频数据之间的互信息，或者使用了特定的数据增强技术来提高模型的鲁棒性。此外，IMU和视频数据的预处理方式、特征提取方法以及模型的超参数设置也是重要的技术细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在OOD IMU数据集上取得了显著的性能提升，尤其是在帕金森病患者的数据集上。与现有的IMU-视频预训练方法和仅IMU预训练方法相比，该方法在零样本和少样本评估中均表现出更强的泛化能力。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于远程健康监测、运动障碍患者的康复治疗、智能家居等领域。通过识别患者在家中的活动模式，可以实现对治疗方案的持续优化，并在必要时向护理人员发出警报。此外，该技术还可用于运动分析、跌倒检测等应用，具有重要的实际价值和广阔的应用前景。

📄 摘要（原文）

Human Activity Recognition (HAR) based on wearable inertial sensors plays a critical role in remote health monitoring. In patients with movement disorders, the ability to detect abnormal patient movements in their home environments can enable continuous optimization of treatments and help alert caretakers as needed. Machine learning approaches have been proposed for HAR tasks using Inertial Measurement Unit (IMU) data; however, most rely on application-specific labels and lack generalizability to data collected in different environments or populations. To address this limitation, we propose a new cross-modal self-supervised pretraining approach to learn representations from large-sale unlabeled IMU-video data and demonstrate improved generalizability in HAR tasks on out of distribution (OOD) IMU datasets, including a dataset collected from patients with Parkinson's disease. Specifically, our results indicate that the proposed cross-modal pretraining approach outperforms the current state-of-the-art IMU-video pretraining approach and IMU-only pretraining under zero-shot and few-shot evaluations. Broadly, our study provides evidence that in highly dynamic data modalities, such as IMU signals, cross-modal pretraining may be a useful tool to learn generalizable data representations. Our software is available at https://github.com/scheshmi/IMU-Video-OOD-HAR.

Improving Out-of-distribution Human Activity Recognition via IMU-Video Cross-modal Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理