Scaling laws in wearable human activity recognition

📄 arXiv: 2502.03364v2 📥 PDF

作者: Tom Hoddes, Alex Bijamov, Saket Joshi, Daniel Roggen, Ali Etemad, Robert Harle, David Racz

分类: cs.LG

发布日期: 2025-02-05 (更新: 2025-05-20)


💡 一句话要点

首次建立可穿戴人体活动识别的缩放定律,指导模型设计与数据选择。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 缩放定律 自监督学习 Transformer 可穿戴设备

📋 核心要点

  1. 现有HAR方法缺乏对模型容量与预训练数据量之间关系的系统性研究,阻碍了模型设计的优化。
  2. 通过详尽的网格搜索,论文建立了HAR领域首个缩放定律,揭示了预训练损失与数据量、参数数量之间的幂律关系。
  3. 实验表明,该缩放定律能够有效提升HAR任务在多个基准数据集上的性能,并为未来的研究方向提供了指导。

📝 摘要(中文)

本文针对可穿戴多模态传感器的人体活动识别(HAR)问题,研究了深度架构和自监督预训练技术中的缩放定律。通过对预训练数据量和Transformer架构进行详尽的网格搜索,首次为HAR建立了缩放定律。研究表明,预训练损失与数据量和参数数量之间存在幂律关系。此外,数据集中用户数量的增加比每个用户数据量的增加更能显著提升性能,表明预训练数据的多样性至关重要,这与之前在自监督HAR中的一些发现相反。这些缩放定律可以转化为三个HAR基准数据集(UCI HAR、WISDM Phone和WISDM Watch)的下游性能改进。最后,作者建议根据这些缩放定律,使用更充足的模型容量重新审视一些先前发表的工作。

🔬 方法详解

问题定义:现有的人体活动识别(HAR)方法,特别是基于深度学习的方法,在模型设计和数据利用上缺乏理论指导。虽然已经提出了许多深度架构和自监督预训练技术,但是如何根据数据量和模型容量来优化模型性能仍然是一个挑战。现有的研究没有充分探索数据规模和模型规模对HAR性能的影响,导致模型设计缺乏原则性,难以充分利用数据。

核心思路:本文的核心思路是通过建立缩放定律,将模型容量与预训练数据量联系起来,从而为HAR模型的设计提供理论依据。通过系统地研究不同规模的Transformer模型在不同规模的预训练数据上的表现,揭示预训练损失与数据量、参数数量之间的关系。此外,还研究了数据集中用户多样性对模型性能的影响。

技术框架:该研究采用了一种基于网格搜索的实验方法。首先,选择Transformer作为基础模型架构,并定义了模型参数数量的搜索空间。然后,构建了不同规模的预训练数据集,并对模型进行自监督预训练。在预训练完成后,将模型迁移到三个下游HAR基准数据集(UCI HAR、WISDM Phone和WISDM Watch)上进行微调和评估。通过分析预训练损失和下游任务性能,建立了缩放定律。

关键创新:该研究最重要的创新点在于首次为HAR领域建立了缩放定律。具体来说,研究发现预训练损失与数据量和参数数量之间存在幂律关系。此外,研究还发现,增加数据集中用户数量比增加每个用户的数据量更能显著提升模型性能,表明数据多样性在HAR中至关重要。这些发现为HAR模型的设计和数据选择提供了新的视角。

关键设计:该研究的关键设计包括:1) 使用Transformer作为基础模型架构,因为它具有强大的表示能力和可扩展性;2) 采用自监督预训练方法,以充分利用未标注的数据;3) 通过网格搜索系统地探索不同模型规模和数据规模的影响;4) 使用多个HAR基准数据集进行评估,以验证缩放定律的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,预训练损失与数据量和参数数量之间存在幂律关系,这为HAR模型的设计提供了重要的指导。更重要的是,研究发现增加数据集中用户数量比增加每个用户的数据量更能显著提升模型性能,这与之前在自监督HAR中的一些发现相反,强调了数据多样性的重要性。该缩放定律在UCI HAR、WISDM Phone和WISDM Watch三个HAR基准数据集上得到了验证。

🎯 应用场景

该研究成果可应用于智能穿戴设备、智能家居、医疗健康等领域。通过理解缩放定律,可以更有效地利用数据和设计模型,提升人体活动识别的准确性和效率。例如,可以根据可用的数据量选择合适的模型容量,或者通过增加数据的多样性来提升模型性能。此外,该研究还可以指导数据采集策略,例如优先收集更多用户的活动数据。

📄 摘要(原文)

Many deep architectures and self-supervised pre-training techniques have been proposed for human activity recognition (HAR) from wearable multimodal sensors. Scaling laws have the potential to help move towards more principled design by linking model capacity with pre-training data volume. Yet, scaling laws have not been established for HAR to the same extent as in language and vision. By conducting an exhaustive grid search on both amount of pre-training data and Transformer architectures, we establish the first known scaling laws for HAR. We show that pre-training loss scales with a power law relationship to amount of data and parameter count and that increasing the number of users in a dataset results in a steeper improvement in performance than increasing data per user, indicating that diversity of pre-training data is important, which contrasts to some previously reported findings in self-supervised HAR. We show that these scaling laws translate to downstream performance improvements on three HAR benchmark datasets of postures, modes of locomotion and activities of daily living: UCI HAR and WISDM Phone and WISDM Watch. Finally, we suggest some previously published works should be revisited in light of these scaling laws with more adequate model capacities.