Measuring Time-Series Dataset Similarity using Wasserstein Distance

📄 arXiv: 2507.22189v1 📥 PDF

作者: Hongjie Chen, Akshay Mehra, Josh Kimball, Ryan A. Rossi

分类: cs.LG, cs.AI

发布日期: 2025-07-29


💡 一句话要点

提出基于Wasserstein距离的时间序列数据集相似度度量方法,用于模型选择和迁移学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列分析 数据集相似性 Wasserstein距离 多元正态分布 迁移学习

📋 核心要点

  1. 现有时间序列数据集相似性度量方法不足,难以有效支持模型选择、微调和可视化等任务。
  2. 论文提出将时间序列数据集建模为多元正态分布,利用Wasserstein距离计算分布间的相似度。
  3. 实验表明,该方法能有效识别相似数据集,并能较好地预测基础模型在迁移学习中的性能。

📝 摘要(中文)

时间序列基础模型研究的兴起,日益增长了对时间序列数据集相似性度量的需求。时间序列数据集相似性度量在模型选择、微调和可视化等方面对研究有所帮助。本文提出了一种基于分布的方法,利用Wasserstein距离来衡量时间序列数据集的相似性。我们将时间序列数据集视为底层多元正态分布(MVN)的经验实例化。因此,两个时间序列数据集之间的相似性被计算为它们对应MVN之间的Wasserstein距离。全面的实验和可视化表明了我们方法的有效性。具体来说,我们展示了Wasserstein距离如何帮助识别相似的时间序列数据集,并促进基础模型在分布外和迁移学习评估中的推理性能估计,我们提出的度量与推理损失之间具有高度相关性(>0.60)。

🔬 方法详解

问题定义:论文旨在解决时间序列数据集相似性度量的问题。现有方法可能无法有效捕捉时间序列数据的复杂特征,或者计算复杂度较高,难以应用于大规模数据集。这使得在模型选择、迁移学习和数据集可视化等任务中难以找到合适的相似数据集,从而影响模型性能和研究效率。

核心思路:论文的核心思路是将每个时间序列数据集视为一个多元正态分布(MVN)的样本。通过计算两个数据集对应的MVN之间的Wasserstein距离,来衡量它们之间的相似性。Wasserstein距离能够有效地度量概率分布之间的差异,即使分布之间没有重叠部分。

技术框架:该方法主要包含以下几个步骤:1) 对每个时间序列数据集进行预处理,例如标准化;2) 将每个数据集拟合为一个多元正态分布,估计其均值向量和协方差矩阵;3) 计算两个数据集对应的MVN之间的Wasserstein距离,作为它们相似性的度量。Wasserstein距离的计算可以使用已有的高效算法。

关键创新:该方法最重要的创新点在于将时间序列数据集建模为多元正态分布,并使用Wasserstein距离来度量相似性。这种方法能够有效地捕捉时间序列数据的统计特征,并且Wasserstein距离对分布的形状和位置都比较敏感,能够更准确地反映数据集之间的差异。与直接比较时间序列数据本身的方法相比,该方法更加鲁棒,并且计算复杂度较低。

关键设计:关键设计包括如何选择合适的多元正态分布拟合方法,以及如何高效地计算Wasserstein距离。论文可能采用了最大似然估计等方法来估计MVN的参数。对于Wasserstein距离的计算,可以使用Sinkhorn算法等近似算法来提高计算效率。此外,论文可能还考虑了如何处理不同长度的时间序列数据,例如通过动态时间规整(DTW)等方法进行对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Wasserstein距离的相似性度量方法能够有效地识别相似的时间序列数据集。该方法与基础模型在分布外和迁移学习评估中的推理损失之间具有高度相关性(>0.60),表明该方法能够较好地预测模型在目标数据集上的性能。这些结果验证了该方法的有效性和实用性。

🎯 应用场景

该研究成果可应用于时间序列基础模型的模型选择、微调和迁移学习。通过识别相似的数据集,可以更有效地选择合适的预训练模型,并进行针对性的微调,从而提高模型在目标任务上的性能。此外,该方法还可以用于时间序列数据集的可视化和聚类,帮助研究人员更好地理解数据集的结构和特征。

📄 摘要(原文)

The emergence of time-series foundation model research elevates the growing need to measure the (dis)similarity of time-series datasets. A time-series dataset similarity measure aids research in multiple ways, including model selection, finetuning, and visualization. In this paper, we propose a distribution-based method to measure time-series dataset similarity by leveraging the Wasserstein distance. We consider a time-series dataset an empirical instantiation of an underlying multivariate normal distribution (MVN). The similarity between two time-series datasets is thus computed as the Wasserstein distance between their corresponding MVNs. Comprehensive experiments and visualization show the effectiveness of our approach. Specifically, we show how the Wasserstein distance helps identify similar time-series datasets and facilitates inference performance estimation of foundation models in both out-of-distribution and transfer learning evaluation, with high correlations between our proposed measure and the inference loss (>0.60).