Mask the Redundancy: Evolving Masking Representation Learning for Multivariate Time-Series Clustering
作者: Zexi Tan, Xiaopeng Luo, Yunlin Liu, Yiqun Zhang
分类: cs.LG
发布日期: 2025-11-21 (更新: 2025-12-07)
备注: Accepted to AAAI 2026
💡 一句话要点
提出EMTC方法,通过演进式掩码学习提升多元时间序列聚类性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多元时间序列聚类 掩码学习 表征学习 对比学习 时间序列分析
📋 核心要点
- 现有MTS聚类方法受冗余信息干扰,难以有效提取判别性特征,导致聚类性能下降。
- EMTC方法通过重要性感知的变量掩码和多内生视图生成,自适应地学习更具判别性的表征。
- 实验结果表明,EMTC在多个基准数据集上显著优于现有方法,F1-Score平均提升4.85%。
📝 摘要(中文)
多元时间序列(MTS)聚类旨在发现时间数据样本内在的分组模式。尽管时间序列提供了丰富的判别信息,但也包含大量冗余,例如稳态机器运行记录和太阳能发电的零输出周期。这种冗余降低了表征学习中对判别性时间戳的关注,从而导致MTS聚类的性能瓶颈。掩码已被广泛用于增强MTS表征,其中时间重建任务旨在捕获MTS中的关键信息。然而,大多数现有的掩码策略都是独立的预处理步骤,与学习过程隔离,这阻碍了对聚类关键时间戳重要性的动态适应。因此,本文提出了演进式掩码MTS聚类(EMTC)方法,其模型架构包括重要性感知的变量掩码(IVM)和多内生视图(MEV)生成模块。IVM自适应地引导模型学习更具判别性的聚类表征,而重建和聚类引导的对比学习路径增强了表征学习并将其连接到聚类任务。在15个基准数据集上的大量实验表明,EMTC优于八种SOTA方法,其中EMTC在F1-Score上比最强的基线平均提高了4.85%。
🔬 方法详解
问题定义:多元时间序列聚类旨在发现时间序列数据中的内在分组模式。然而,时间序列数据通常包含大量冗余信息,例如机器的稳态运行数据或太阳能发电的零输出时段。这些冗余信息会降低模型对关键判别性时间戳的关注,从而影响聚类性能。现有方法通常采用静态掩码策略,无法根据学习过程动态调整掩码,导致次优的表征学习效果。
核心思路:EMTC的核心思路是通过演进式的掩码学习,使模型能够自适应地关注对聚类任务至关重要的时间戳。通过重要性感知的变量掩码(IVM),模型可以动态地调整每个变量的掩码概率,从而抑制冗余信息,突出判别性特征。同时,多内生视图(MEV)的生成进一步增强了模型的鲁棒性和泛化能力。
技术框架:EMTC的整体架构包含两个主要模块:重要性感知的变量掩码(IVM)和多内生视图(MEV)生成模块。IVM模块负责根据时间序列的重要性动态生成掩码,MEV模块则利用生成的掩码创建多个不同的时间序列视图。模型通过重建任务和聚类引导的对比学习任务进行训练,从而学习到更具判别性的表征。
关键创新:EMTC的关键创新在于其演进式的掩码学习策略。与传统的静态掩码方法不同,EMTC的掩码是动态变化的,可以根据学习过程自适应地调整。这种动态调整使得模型能够更好地关注对聚类任务至关重要的时间戳,从而提高聚类性能。此外,聚类引导的对比学习进一步增强了表征学习与聚类任务之间的联系。
关键设计:IVM模块使用一个可学习的神经网络来预测每个变量的掩码概率。MEV模块通过随机掩码不同的变量来生成多个时间序列视图。重建任务使用均方误差(MSE)作为损失函数,聚类引导的对比学习任务使用InfoNCE损失函数。模型的训练过程采用交替优化策略,即先训练IVM模块,再训练MEV模块,然后交替训练两个模块。
🖼️ 关键图片
📊 实验亮点
EMTC在15个基准数据集上进行了广泛的实验,结果表明其性能显著优于8种最先进的方法。具体而言,EMTC在F1-Score指标上平均提升了4.85%,在NMI指标上也有显著提升。这些结果表明,EMTC能够有效地学习到更具判别性的时间序列表征,从而提高聚类性能。
🎯 应用场景
EMTC方法可应用于各种多元时间序列聚类任务,例如:工业设备故障诊断、金融市场行为分析、医疗健康监测等。通过有效识别时间序列数据中的关键模式,EMTC能够帮助用户更好地理解数据,并做出更明智的决策。未来,该方法可以进一步扩展到其他时间序列分析任务,例如预测和异常检测。
📄 摘要(原文)
Multivariate Time-Series (MTS) clustering discovers intrinsic grouping patterns of temporal data samples. Although time-series provide rich discriminative information, they also contain substantial redundancy, such as steady-state machine operation records and zero-output periods of solar power generation. Such redundancy diminishes the attention given to discriminative timestamps in representation learning, thus leading to performance bottlenecks in MTS clustering. Masking has been widely adopted to enhance the MTS representation, where temporal reconstruction tasks are designed to capture critical information from MTS. However, most existing masking strategies appear to be standalone preprocessing steps, isolated from the learning process, which hinders dynamic adaptation to the importance of clustering-critical timestamps. Accordingly, this paper proposes the Evolving-masked MTS Clustering (EMTC) method, whose model architecture comprises Importance-aware Variate-wise Masking (IVM) and Multi-Endogenous Views (MEV) generation modules. IVM adaptively guides the model in learning more discriminative representations for clustering, while the reconstruction and cluster-guided contrastive learning pathways enhance and connect the representation learning to clustering tasks. Extensive experiments on 15 benchmark datasets demonstrate the superiority of EMTC over eight SOTA methods, where the EMTC achieves an average improvement of 4.85% in F1-Score over the strongest baselines.