Subject Invariant Contrastive Learning for Human Activity Recognition
作者: Yavuz Yarici, Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib
分类: cs.CV, cs.LG
发布日期: 2025-07-04
💡 一句话要点
提出主题不变对比学习(SICL)以提升人体活动识别的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体活动识别 对比学习 自监督学习 领域泛化 个体差异
📋 核心要点
- 现有对比学习方法在人体活动识别中,易受个体差异导致的领域偏移影响,泛化能力差。
- SICL通过重新加权同一主体的负样本对,抑制个体特有信息,突出活动相关特征。
- 在UTD-MHAD、MMAct和DARai数据集上,SICL相比传统对比学习方法性能提升高达11%。
📝 摘要(中文)
在人体活动识别(HAR)中,数据标注成本高昂,因此对比学习等自监督方法备受青睐。有效的对比学习依赖于选择信息丰富的正负样本。然而,HAR传感器信号容易受到由个体差异引起的大量领域偏移的影响。这些领域偏移将个体特有的变化而非活动特有的特征嵌入模型,从而阻碍了模型对未见个体的泛化能力。因此,使用对比学习训练的人体活动识别模型通常难以泛化到新的个体。我们提出了一种简单而有效的损失函数——主题不变对比学习(SICL),以提高人体活动识别的泛化能力。SICL重新加权来自同一主体的负样本对,以抑制主体特有的线索并强调活动特有的信息。我们在三个公共基准数据集UTD-MHAD、MMAct和DARai上评估了我们的损失函数。结果表明,SICL比传统的对比学习方法提高了高达11%的性能。此外,我们还证明了我们的损失函数在各种设置中的适应性,包括多种自监督方法、多模态场景和监督学习框架。
🔬 方法详解
问题定义:人体活动识别(HAR)模型在实际应用中,往往需要在未见过的个体上进行识别。现有的对比学习方法在训练HAR模型时,容易受到个体差异的影响,导致模型学习到的是个体相关的特征,而非活动本身的特征,从而降低了模型在新个体上的泛化能力。这种个体差异造成的领域偏移是现有方法的痛点。
核心思路:SICL的核心思路是通过调整负样本的权重,来降低个体差异对模型训练的影响。具体来说,对于来自同一个体的负样本,降低其权重,从而迫使模型更多地关注活动本身的特征,而不是个体特有的特征。这样设计的目的是使模型学习到更具有泛化性的活动表示。
技术框架:SICL可以嵌入到现有的对比学习框架中。整体流程如下:首先,从数据集中抽取样本对,包括正样本对和负样本对。然后,对于负样本对,根据其是否来自同一个体进行加权。最后,使用加权后的样本对计算对比损失,并更新模型参数。该方法可以应用于各种自监督学习方法、多模态场景和监督学习框架。
关键创新:SICL最重要的创新点在于其对负样本的加权策略。与传统的对比学习方法不同,SICL不是平等地对待所有负样本,而是根据负样本是否来自同一个体进行区分。这种加权策略能够有效地抑制个体差异,提高模型的泛化能力。
关键设计:SICL的关键设计在于如何确定负样本的权重。论文中,来自同一个体的负样本的权重被降低,而来自不同个体的负样本的权重保持不变。具体的权重值可以根据实际情况进行调整。此外,SICL可以与不同的对比损失函数结合使用,例如InfoNCE损失。
🖼️ 关键图片
📊 实验亮点
SICL在三个公开数据集UTD-MHAD、MMAct和DARai上进行了评估,实验结果表明,SICL相比传统的对比学习方法,性能提升高达11%。此外,实验还验证了SICL在多种自监督方法、多模态场景和监督学习框架下的有效性,证明了其良好的适应性。
🎯 应用场景
SICL可应用于各种人体活动识别场景,如智能家居、运动健康监测、医疗康复等。通过提高模型对新个体的泛化能力,SICL能够减少对每个个体进行数据标注的需求,降低部署成本,并提升用户体验。未来,该方法有望扩展到其他领域,如语音识别、图像识别等,以解决领域偏移问题。
📄 摘要(原文)
The high cost of annotating data makes self-supervised approaches, such as contrastive learning methods, appealing for Human Activity Recognition (HAR). Effective contrastive learning relies on selecting informative positive and negative samples. However, HAR sensor signals are subject to significant domain shifts caused by subject variability. These domain shifts hinder model generalization to unseen subjects by embedding subject-specific variations rather than activity-specific features. As a result, human activity recognition models trained with contrastive learning often struggle to generalize to new subjects. We introduce Subject-Invariant Contrastive Learning (SICL), a simple yet effective loss function to improve generalization in human activity recognition. SICL re-weights negative pairs drawn from the same subject to suppress subject-specific cues and emphasize activity-specific information. We evaluate our loss function on three public benchmarks: UTD-MHAD, MMAct, and DARai. We show that SICL improves performance by up to 11% over traditional contrastive learning methods. Additionally, we demonstrate the adaptability of our loss function across various settings, including multiple self-supervised methods, multimodal scenarios, and supervised learning frameworks.