Time-MMD: Multi-Domain Multimodal Dataset for Time Series Analysis

📄 arXiv: 2406.08627v4 📥 PDF

作者: Haoxin Liu, Shangqing Xu, Zhiyuan Zhao, Lingkai Kong, Harshavardhan Kamarthi, Aditya B. Sasanur, Megha Sharma, Jiaming Cui, Qingsong Wen, Chao Zhang, B. Aditya Prakash

分类: cs.LG, cs.CL

发布日期: 2024-06-12 (更新: 2025-01-24)

备注: Accepted by NeurIPS 2024 Datasets and Benchmarks Track

🔗 代码/项目: GITHUB


💡 一句话要点

提出Time-MMD多领域多模态时间序列数据集,提升时间序列分析性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 时间序列分析 数据集 文本信息 领域知识

📋 核心要点

  1. 现有时间序列分析模型忽略了数值数据之外的文本等模态信息,限制了模型性能。
  2. Time-MMD数据集和MM-TSFlib库旨在提供多领域、多模态数据和评估工具,促进多模态时间序列分析。
  3. 实验表明,利用多模态信息可以显著提升时间序列预测性能,均方误差降低高达40%。

📝 摘要(中文)

现实世界的时间序列分析(TSA)需要人类专家整合数值序列数据和多模态领域知识,但现有TSA模型主要依赖数值数据,忽略了文本序列数据等其他信息的重要性。为此,我们推出了Time-MMD,这是首个多领域、多模态时间序列数据集,涵盖9个主要数据领域。Time-MMD确保了细粒度的模态对齐,消除了数据污染,并提供了高可用性。此外,我们开发了MM-TSFlib,这是首个多模态时间序列预测(TSF)库,基于Time-MMD无缝地进行多模态TSF评估,以进行深入分析。通过MM-TSFlib在Time-MMD上进行的大量实验表明,通过将单模态TSF扩展到多模态,可以显著提高性能,一般情况下均方误差降低超过15%,在具有丰富文本数据的领域中降低高达40%。更重要的是,我们的数据集和库彻底改变了更广泛的应用、影响和研究主题,以推进TSA。

🔬 方法详解

问题定义:现有时间序列分析方法主要依赖于数值数据,忽略了文本等其他模态的信息,导致模型无法充分利用领域知识,限制了预测精度和泛化能力。缺乏高质量、多领域、模态对齐的多模态时间序列数据集是制约多模态时间序列分析发展的重要因素。

核心思路:论文的核心思路是构建一个高质量的多模态时间序列数据集Time-MMD,并开发一个相应的评估库MM-TSFlib,从而促进多模态时间序列分析的研究。通过引入文本等模态信息,模型可以更好地理解时间序列的上下文和领域知识,从而提高预测精度。

技术框架:Time-MMD数据集包含9个主要数据领域,每个领域包含数值时间序列和相应的文本描述。数据集构建过程中,作者特别关注模态对齐和数据清洗,确保数据质量。MM-TSFlib库提供了一系列多模态时间序列预测模型的评估工具,方便研究人员进行模型比较和分析。整体流程包括数据收集与清洗、模态对齐、数据集构建、模型评估库开发和实验验证。

关键创新:Time-MMD是首个多领域、多模态时间序列数据集,填补了该领域的空白。MM-TSFlib库提供了一个统一的多模态时间序列预测模型评估平台,方便研究人员进行模型比较和分析。论文强调了多模态信息在时间序列分析中的重要性,并证明了其有效性。

关键设计:Time-MMD数据集的构建过程中,作者采用了细粒度的模态对齐方法,确保数值时间序列和文本描述之间的一致性。MM-TSFlib库支持多种多模态时间序列预测模型,并提供了常用的评估指标,如均方误差(MSE)。具体的数据清洗和模态对齐方法以及模型评估指标的选择在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过将单模态时间序列预测模型扩展到多模态,可以显著提高预测性能。在Time-MMD数据集上,多模态模型的均方误差(MSE)平均降低了15%以上,在具有丰富文本数据的领域中,MSE降低高达40%。这些结果充分证明了多模态信息在时间序列分析中的重要性和有效性。

🎯 应用场景

该研究成果可广泛应用于金融、医疗、交通等领域的时间序列分析任务。例如,在金融领域,可以结合股票价格的数值序列和新闻报道的文本信息,更准确地预测股票价格走势。在医疗领域,可以结合患者的生理指标和病历记录,更有效地进行疾病诊断和预测。该研究为多模态时间序列分析提供了一个有力的工具,具有重要的实际应用价值。

📄 摘要(原文)

Time series data are ubiquitous across a wide range of real-world domains. While real-world time series analysis (TSA) requires human experts to integrate numerical series data with multimodal domain-specific knowledge, most existing TSA models rely solely on numerical data, overlooking the significance of information beyond numerical series. This oversight is due to the untapped potential of textual series data and the absence of a comprehensive, high-quality multimodal dataset. To overcome this obstacle, we introduce Time-MMD, the first multi-domain, multimodal time series dataset covering 9 primary data domains. Time-MMD ensures fine-grained modality alignment, eliminates data contamination, and provides high usability. Additionally, we develop MM-TSFlib, the first-cut multimodal time-series forecasting (TSF) library, seamlessly pipelining multimodal TSF evaluations based on Time-MMD for in-depth analyses. Extensive experiments conducted on Time-MMD through MM-TSFlib demonstrate significant performance enhancements by extending unimodal TSF to multimodality, evidenced by over 15% mean squared error reduction in general, and up to 40% in domains with rich textual data. More importantly, our datasets and library revolutionize broader applications, impacts, research topics to advance TSA. The dataset is available at https://github.com/AdityaLab/Time-MMD.