Merlin: Multi-View Representation Learning for Robust Multivariate Time Series Forecasting with Unfixed Missing Rates
作者: Chengqing Yu, Fei Wang, Chuanguang Yang, Zezhi Shao, Tao Sun, Tangwen Qian, Wei Wei, Zhulin An, Yongjun Xu
分类: cs.LG, cs.AI, stat.ML
发布日期: 2025-06-14
备注: Accepted by SIGKDD 2025 (Research Track)
💡 一句话要点
提出Merlin,通过多视角表征学习增强MTSF模型在非固定缺失率下的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多元时间序列预测 缺失值处理 知识蒸馏 对比学习 鲁棒性 多视角学习
📋 核心要点
- 现有MTSF模型易受缺失值影响,且缺失值的分布随时间变化,导致模型预测性能下降。
- Merlin通过离线知识蒸馏和多视角对比学习,实现不完整观测与完整观测之间的语义对齐。
- 实验表明,Merlin能有效提升现有模型在非固定缺失率下的鲁棒性,并保持预测精度。
📝 摘要(中文)
多元时间序列预测(MTSF)涉及预测多个相互关联的时间序列的未来值。近年来,基于深度学习的MTSF模型因其在MTS数据中挖掘语义(全局和局部信息)的潜力而备受关注。然而,这些模型普遍容易受到数据收集器故障导致的缺失值的影响。这些缺失值不仅扰乱了MTS的语义,而且它们的分布也随时间变化。然而,现有模型缺乏对此类问题的鲁棒性,导致次优的预测性能。为此,本文提出了多视角表征学习(Merlin),它可以帮助现有模型实现具有不同缺失率的不完整观测与MTS中完整观测之间的语义对齐。具体来说,Merlin由两个关键模块组成:离线知识蒸馏和多视角对比学习。前者利用教师模型来指导学生模型从不完整的观测中挖掘语义,类似于从完整的观测中获得的语义。后者通过从具有不同缺失率的不完整观测构建的正/负数据对中学习,提高学生模型的鲁棒性,确保不同缺失率之间的语义对齐。因此,Merlin能够有效地增强现有模型在非固定缺失率下的鲁棒性,同时保持预测精度。在四个真实世界数据集上的实验证明了Merlin的优越性。
🔬 方法详解
问题定义:多元时间序列预测(MTSF)任务中,由于数据采集设备故障等原因,时间序列数据常常存在缺失值。现有基于深度学习的MTSF模型对缺失值非常敏感,缺失值会破坏时间序列的语义信息,并且缺失值的分布随时间变化,这使得模型难以学习到鲁棒的表征,最终导致预测性能下降。
核心思路:Merlin的核心思路是通过多视角表征学习,使得模型能够从具有不同缺失率的不完整观测中学习到与完整观测相似的语义信息,从而提高模型对缺失值的鲁棒性。具体来说,Merlin利用知识蒸馏和对比学习两种方法,分别从不同的角度来增强模型的鲁棒性。
技术框架:Merlin主要包含两个模块:离线知识蒸馏模块和多视角对比学习模块。首先,使用一个预训练的教师模型从完整数据中学习知识。然后,离线知识蒸馏模块利用教师模型指导学生模型从不完整的数据中学习,使得学生模型能够从不完整的数据中提取到与完整数据相似的语义信息。多视角对比学习模块则通过构建具有不同缺失率的数据对,并利用对比学习的方法,使得学生模型能够学习到不同缺失率下的不变性表征。
关键创新:Merlin的关键创新在于它同时利用了知识蒸馏和对比学习两种方法来增强模型的鲁棒性。知识蒸馏可以使得学生模型从教师模型中学习到丰富的语义信息,而对比学习则可以使得学生模型学习到不同缺失率下的不变性表征。这种结合使得Merlin能够有效地提高模型对缺失值的鲁棒性。
关键设计:在离线知识蒸馏模块中,使用了MSE损失函数来衡量学生模型和教师模型输出之间的差异。在多视角对比学习模块中,使用了InfoNCE损失函数来构建正负样本对,并学习不同缺失率下的不变性表征。具体的网络结构可以根据不同的MTSF模型进行调整,论文中并没有对网络结构进行特别的限制。
🖼️ 关键图片
📊 实验亮点
在四个真实世界数据集上的实验结果表明,Merlin能够显著提高现有MTSF模型在非固定缺失率下的预测性能。例如,在某些数据集上,Merlin可以将预测误差降低10%以上,证明了其有效性和优越性。Merlin可以作为一个即插即用的模块,方便地集成到现有的MTSF模型中。
🎯 应用场景
Merlin可应用于各种需要进行多元时间序列预测的领域,例如金融市场的股票价格预测、交通流量预测、工业生产过程中的设备状态预测等。通过提高模型对缺失值的鲁棒性,Merlin可以使得这些应用在数据质量较差的情况下也能获得可靠的预测结果,具有重要的实际应用价值。
📄 摘要(原文)
Multivariate Time Series Forecasting (MTSF) involves predicting future values of multiple interrelated time series. Recently, deep learning-based MTSF models have gained significant attention for their promising ability to mine semantics (global and local information) within MTS data. However, these models are pervasively susceptible to missing values caused by malfunctioning data collectors. These missing values not only disrupt the semantics of MTS, but their distribution also changes over time. Nevertheless, existing models lack robustness to such issues, leading to suboptimal forecasting performance. To this end, in this paper, we propose Multi-View Representation Learning (Merlin), which can help existing models achieve semantic alignment between incomplete observations with different missing rates and complete observations in MTS. Specifically, Merlin consists of two key modules: offline knowledge distillation and multi-view contrastive learning. The former utilizes a teacher model to guide a student model in mining semantics from incomplete observations, similar to those obtainable from complete observations. The latter improves the student model's robustness by learning from positive/negative data pairs constructed from incomplete observations with different missing rates, ensuring semantic alignment across different missing rates. Therefore, Merlin is capable of effectively enhancing the robustness of existing models against unfixed missing rates while preserving forecasting accuracy. Experiments on four real-world datasets demonstrate the superiority of Merlin.