Weak-Annotation of HAR Datasets using Vision Foundation Models

📄 arXiv: 2408.05169v1 📥 PDF

作者: Marius Bock, Kristof Van Laerhoven, Michael Moeller

分类: cs.HC, cs.CV

发布日期: 2024-08-09

备注: 8 pages, 3 figures, accepted at ISWC'24: International Symposium on Wearable Computers, Oct, 2024


💡 一句话要点

提出基于视觉基础模型的弱监督HAR数据集标注方法,降低人工标注成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 弱监督学习 视觉基础模型 数据标注 聚类算法

📋 核心要点

  1. 可穿戴设备数据标注耗时费力,导致HAR数据集规模和质量受限。
  2. 利用视觉基础模型CLIP,通过聚类减少人工标注的数据量,仅标注聚类中心。
  3. 实验表明,该方法在三个HAR数据集上达到接近90%的标注准确率,且模型性能与全监督方法相当。

📝 摘要(中文)

由于基于可穿戴设备的数据标注仍然是一项繁琐且耗时的任务,需要研究人员投入大量时间,因此,与相关领域的数据集相比,人体活动识别领域的基准数据集在丰富性和规模上都存在不足。最近,诸如CLIP之类的视觉基础模型受到了广泛关注,帮助视觉社区在寻找鲁棒、通用的特征表示方面取得了进展。考虑到可穿戴设备领域的大多数研究人员依赖视觉模态来克服可穿戴数据的有限表达能力,并准确地离线标注他们即将发布的基准数据集,我们提出了一种新颖的、基于聚类的标注流程,以显著减少需要人工标注的数据量。我们表明,使用我们的方法,标注中心剪辑足以在三个公开的HAR基准数据集上实现接近90%的平均标注准确率。使用弱标注的数据集,我们进一步证明,我们可以匹配所有三个基准数据集上完全监督的深度学习分类器的准确率。

🔬 方法详解

问题定义:论文旨在解决人体活动识别(HAR)领域中,由于人工标注成本高昂导致数据集规模和质量受限的问题。现有方法依赖人工对大量可穿戴设备数据进行标注,过程繁琐耗时,严重制约了HAR领域的发展。

核心思路:论文的核心思路是利用视觉基础模型(如CLIP)强大的特征提取能力,结合聚类算法,将大量未标注的HAR数据进行分组,然后仅对每个簇的中心样本进行人工标注。这样可以显著减少需要人工标注的数据量,从而降低标注成本,提高数据集构建效率。

技术框架:该方法主要包含以下几个阶段:1) 使用视觉基础模型(如CLIP)提取HAR数据的视觉特征;2) 对提取的视觉特征进行聚类,将相似的HAR数据分组;3) 人工标注每个簇的中心样本;4) 将中心样本的标签传播到簇内的其他样本,从而实现对整个数据集的弱标注。

关键创新:该方法最重要的创新点在于将视觉基础模型与聚类算法相结合,实现了一种高效的弱监督HAR数据集标注方法。与传统的完全人工标注方法相比,该方法可以显著减少人工标注的工作量,同时保证较高的标注准确率。

关键设计:论文的关键设计包括:1) 选择合适的视觉基础模型(如CLIP)来提取HAR数据的视觉特征;2) 选择合适的聚类算法(如K-means)对视觉特征进行聚类;3) 确定每个簇的中心样本的选取策略;4) 设计合适的标签传播策略,将中心样本的标签传播到簇内的其他样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在三个公开的HAR基准数据集上实现了接近90%的平均标注准确率。此外,使用弱标注的数据集训练的深度学习分类器,其性能可以与使用完全监督数据训练的分类器相媲美,证明了该方法的有效性和实用性。代码和补充材料已公开。

🎯 应用场景

该研究成果可广泛应用于人体活动识别领域,例如智能家居、运动健康监测、老年人看护等。通过降低数据标注成本,可以促进更大规模、更高质量的HAR数据集的构建,从而推动相关技术的进步和应用落地。未来,该方法还可以扩展到其他需要数据标注的领域,例如语音识别、自然语言处理等。

📄 摘要(原文)

As wearable-based data annotation remains, to date, a tedious, time-consuming task requiring researchers to dedicate substantial time, benchmark datasets within the field of Human Activity Recognition in lack richness and size compared to datasets available within related fields. Recently, vision foundation models such as CLIP have gained significant attention, helping the vision community advance in finding robust, generalizable feature representations. With the majority of researchers within the wearable community relying on vision modalities to overcome the limited expressiveness of wearable data and accurately label their to-be-released benchmark datasets offline, we propose a novel, clustering-based annotation pipeline to significantly reduce the amount of data that needs to be annotated by a human annotator. We show that using our approach, the annotation of centroid clips suffices to achieve average labelling accuracies close to 90% across three publicly available HAR benchmark datasets. Using the weakly annotated datasets, we further demonstrate that we can match the accuracy scores of fully-supervised deep learning classifiers across all three benchmark datasets. Code as well as supplementary figures and results are publicly downloadable via github.com/mariusbock/weak_har.