UniMTS: Unified Pre-training for Motion Time Series

📄 arXiv: 2410.19818v1 📥 PDF

作者: Xiyuan Zhang, Diyan Teng, Ranak Roy Chowdhury, Shuheng Li, Dezhi Hong, Rajesh K. Gupta, Jingbo Shang

分类: eess.SP, cs.AI, cs.LG

发布日期: 2024-10-18

备注: NeurIPS 2024. Code: https://github.com/xiyuanzh/UniMTS. Model: https://huggingface.co/xiyuanz/UniMTS


💡 一句话要点

UniMTS:面向运动时间序列的统一预训练模型,提升跨设备和活动的泛化性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动时间序列 预训练模型 对比学习 时空图网络 数据增强 零样本学习 泛化能力

📋 核心要点

  1. 现有运动时间序列模型缺乏跨设备位置、安装方向和活动类型的泛化能力,限制了其在实际应用中的效果。
  2. UniMTS通过对比学习将运动时间序列与文本描述对齐,并结合数据合成、时空图网络和旋转不变增强等技术,提升模型的泛化性。
  3. 实验表明,UniMTS在多个基准数据集上显著优于现有方法,尤其在零样本学习场景下提升巨大。

📝 摘要(中文)

本文提出UniMTS,一种用于运动时间序列的统一预训练方法,旨在解决现有模型在不同设备和活动类型上的泛化性问题。由于安全和隐私顾虑,大规模运动时间序列数据集难以构建,阻碍了预训练模型的发展。UniMTS采用对比学习框架,利用大型语言模型增强的文本描述对齐运动时间序列,从而学习时间序列的语义信息,提升跨活动的泛化能力。为了解决数据稀缺问题,本文从现有的全身骨骼运动数据中推导并合成时间序列。利用时空图网络捕捉关节间的关系,以实现跨设备位置的泛化。此外,设计了旋转不变增强方法,使模型对设备安装方向的变化不敏感。实验结果表明,UniMTS在18个运动时间序列分类基准数据集上表现出卓越的泛化能力,在零样本、少样本和全样本设置下,分别超越最佳基线340%、16.3%和9.2%。

🔬 方法详解

问题定义:现有运动时间序列模型通常在特定数据集上训练和测试,导致在不同设备位置、设备安装方向和人类活动类型上泛化能力差。由于隐私和安全问题,构建大规模运动时间序列数据集非常困难,这阻碍了预训练模型的发展。因此,需要一种能够跨多种设备潜在因素和活动进行泛化的统一预训练方法。

核心思路:UniMTS的核心思路是利用对比学习框架,将运动时间序列与文本描述对齐。通过大型语言模型增强文本描述,使模型能够学习时间序列的语义信息,从而实现跨活动的泛化。此外,通过从运动骨骼数据中合成时间序列,并结合时空图网络和旋转不变增强,进一步提升模型的泛化能力。

技术框架:UniMTS的整体框架包括以下几个主要模块:1) 数据合成模块,从现有的运动骨骼数据中推导并合成运动时间序列。2) 特征提取模块,利用时空图网络提取运动时间序列的特征。3) 文本编码模块,利用大型语言模型对文本描述进行编码。4) 对比学习模块,通过对比学习损失函数,将运动时间序列的特征与文本描述的编码对齐。5) 旋转不变增强模块,通过数据增强使模型对设备安装方向的变化不敏感。

关键创新:UniMTS最重要的技术创新点在于其统一的预训练框架,该框架能够同时解决跨设备和跨活动的泛化问题。与现有方法相比,UniMTS不仅利用了对比学习,还结合了数据合成、时空图网络和旋转不变增强等多种技术,从而显著提升了模型的泛化能力。

关键设计:UniMTS的关键设计包括:1) 使用GCN来建模骨骼的拓扑结构,从而提取运动特征。2) 使用对比学习损失函数,例如InfoNCE,来对齐运动时间序列和文本描述。3) 设计旋转不变增强方法,例如随机旋转时间序列,以提高模型对设备安装方向变化的鲁棒性。4) 使用Transformer网络来编码文本描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniMTS在18个运动时间序列分类基准数据集上取得了显著的性能提升。在零样本学习设置下,UniMTS超越最佳基线340%;在少样本学习设置下,提升16.3%;在全样本学习设置下,提升9.2%。这些结果表明,UniMTS具有卓越的泛化能力,能够有效应对不同设备和活动带来的挑战。

🎯 应用场景

UniMTS在医疗健康、自动化、物联网和AR/XR等领域具有广泛的应用前景。例如,它可以用于监测老年人的跌倒风险、识别工业生产中的异常行为、控制智能家居设备以及增强AR/XR应用的交互体验。该研究有助于推动基于移动和可穿戴设备的普适计算发展。

📄 摘要(原文)

Motion time series collected from mobile and wearable devices such as smartphones and smartwatches offer significant insights into human behavioral patterns, with wide applications in healthcare, automation, IoT, and AR/XR due to their low-power, always-on nature. However, given security and privacy concerns, building large-scale motion time series datasets remains difficult, preventing the development of pre-trained models for human activity analysis. Typically, existing models are trained and tested on the same dataset, leading to poor generalizability across variations in device location, device mounting orientation and human activity type. In this paper, we introduce UniMTS, the first unified pre-training procedure for motion time series that generalizes across diverse device latent factors and activities. Specifically, we employ a contrastive learning framework that aligns motion time series with text descriptions enriched by large language models. This helps the model learn the semantics of time series to generalize across activities. Given the absence of large-scale motion time series data, we derive and synthesize time series from existing motion skeleton data with all-joint coverage. Spatio-temporal graph networks are utilized to capture the relationships across joints for generalization across different device locations. We further design rotation-invariant augmentation to make the model agnostic to changes in device mounting orientations. Our model shows exceptional generalizability across 18 motion time series classification benchmark datasets, outperforming the best baselines by 340% in the zero-shot setting, 16.3% in the few-shot setting, and 9.2% in the full-shot setting.