StatioCL: Contrastive Learning for Time Series via Non-Stationary and Temporal Contrast
作者: Yu Wu, Ting Dang, Dimitris Spathis, Hong Jia, Cecilia Mascolo
分类: cs.LG
发布日期: 2024-10-14
备注: Accepted in CIKM24
💡 一句话要点
StatioCL:通过非平稳性和时间对比学习提升时间序列表征,解决假阴性样本问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 时间序列分析 对比学习 非平稳性 时间依赖性 表征学习 假阴性样本 时间序列分类
📋 核心要点
- 现有对比学习方法在时间序列数据中易引入假阴性样本,导致表征学习不准确,影响模型性能。
- StatioCL通过捕获时间序列的非平稳性和时间依赖性,区分语义和时间上的假阴性样本,提升表征质量。
- 实验表明,StatioCL在时间序列分类任务中显著优于现有方法,尤其在数据效率和标签稀缺性方面。
📝 摘要(中文)
对比学习(CL)已成为时间序列数据表征学习的一种有前景的方法,它通过紧密嵌入相似对,同时拉远非相似对来实现。然而,现有的CL方法通常会引入假阴性对(FNPs),这是因为它们忽略了固有的时间序列特性,并随机选择不同的片段作为非相似对,导致错误的表征学习、降低的模型性能和整体效率。为了解决这些问题,我们首次系统地定义和分类了时间序列中的FNPs,将其分为语义假阴性对和时间假阴性对:前者源于忽略标签类别中的相似性,这与非平稳性中的相似性相关;后者源于忽略时间邻近性。此外,我们引入了StatioCL,这是一种新颖的CL框架,它捕获非平稳性和时间依赖性,以减轻FNPs并纠正学习到的表征中的不准确性。通过解释和区分非平稳状态,反映趋势或时间动态与底层数据模式之间的相关性,StatioCL有效地捕获语义特征并消除语义FNPs。同时,StatioCL基于时间依赖性建立细粒度的相似性级别,以捕获片段之间不同的时间邻近性,并减轻时间FNPs。在真实世界的基准时间序列分类数据集上进行评估,StatioCL展示了相对于最先进的CL方法的显著改进,在召回率上提高了2.9%,在FNPs上减少了19.2%。最重要的是,StatioCL还显示出增强的数据效率和对标签稀缺的鲁棒性。
🔬 方法详解
问题定义:现有时间序列对比学习方法忽略了时间序列的非平稳性和时间依赖性,导致将语义相似或时间上邻近的片段错误地判定为负样本(假阴性样本),从而损害了学习到的表征的质量。现有方法缺乏对时间序列内在特性的有效建模。
核心思路:StatioCL的核心思路是通过显式地建模时间序列的非平稳性和时间依赖性来缓解假阴性样本问题。通过区分非平稳状态,捕捉时间序列的语义特征,消除语义假阴性样本。同时,基于时间依赖性建立细粒度的相似性级别,捕捉片段之间不同的时间邻近性,减轻时间假阴性样本。
技术框架:StatioCL框架主要包含以下几个阶段:1) 数据预处理:对时间序列数据进行必要的清洗和标准化。2) 非平稳性分析:通过分析时间序列的统计特性,识别不同的非平稳状态。3) 时间依赖性建模:建立时间序列片段之间的时间依赖关系模型,例如使用滑动窗口或注意力机制。4) 对比学习:构建对比学习目标函数,利用非平稳性和时间依赖性信息,区分真假负样本,进行表征学习。
关键创新:StatioCL的关键创新在于首次系统地定义和分类了时间序列中的假阴性样本,并提出了一个能够同时考虑非平稳性和时间依赖性的对比学习框架。与现有方法相比,StatioCL能够更准确地识别真假负样本,从而学习到更鲁棒和有效的时间序列表征。
关键设计:StatioCL的关键设计包括:1) 非平稳性度量方法:选择合适的统计指标(如均值、方差、自相关系数等)来量化时间序列的非平稳性。2) 时间依赖性建模方法:使用滑动窗口或注意力机制来捕捉时间序列片段之间的时间依赖关系。3) 对比学习损失函数:设计一个能够同时考虑非平稳性和时间依赖性的对比学习损失函数,例如InfoNCE损失函数的变体。
🖼️ 关键图片
📊 实验亮点
StatioCL在真实世界的基准时间序列分类数据集上进行了评估,实验结果表明,StatioCL相对于最先进的对比学习方法,在召回率上提高了2.9%,在假阴性样本上减少了19.2%。此外,StatioCL还表现出更强的数据效率和对标签稀缺的鲁棒性。
🎯 应用场景
StatioCL可应用于各种时间序列分析任务,如金融市场预测、医疗健康监测、工业设备故障诊断等。通过提升时间序列表征的质量,StatioCL能够提高下游任务的性能,并降低对标注数据的依赖,具有重要的实际应用价值和潜力。
📄 摘要(原文)
Contrastive learning (CL) has emerged as a promising approach for representation learning in time series data by embedding similar pairs closely while distancing dissimilar ones. However, existing CL methods often introduce false negative pairs (FNPs) by neglecting inherent characteristics and then randomly selecting distinct segments as dissimilar pairs, leading to erroneous representation learning, reduced model performance, and overall inefficiency. To address these issues, we systematically define and categorize FNPs in time series into semantic false negative pairs and temporal false negative pairs for the first time: the former arising from overlooking similarities in label categories, which correlates with similarities in non-stationarity and the latter from neglecting temporal proximity. Moreover, we introduce StatioCL, a novel CL framework that captures non-stationarity and temporal dependency to mitigate both FNPs and rectify the inaccuracies in learned representations. By interpreting and differentiating non-stationary states, which reflect the correlation between trends or temporal dynamics with underlying data patterns, StatioCL effectively captures the semantic characteristics and eliminates semantic FNPs. Simultaneously, StatioCL establishes fine-grained similarity levels based on temporal dependencies to capture varying temporal proximity between segments and to mitigate temporal FNPs. Evaluated on real-world benchmark time series classification datasets, StatioCL demonstrates a substantial improvement over state-of-the-art CL methods, achieving a 2.9% increase in Recall and a 19.2% reduction in FNPs. Most importantly, StatioCL also shows enhanced data efficiency and robustness against label scarcity.