Bridging the High-Frequency Data Gap: A Millisecond-Resolution Network Dataset for Advancing Time Series Foundation Models
作者: Subina Khanal, Seshu Tirupathi, Merim Dzaferagic, Marco Ruffini, Torben Bach Pedersen
分类: cs.LG, cs.AI
发布日期: 2026-03-17
💡 一句话要点
提出毫秒级无线网络数据集,弥补时间序列基础模型在高频数据上的不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列基础模型 高频数据 无线网络 数据集 5G网络
📋 核心要点
- 现有时间序列基础模型缺乏对高频数据的有效处理能力,主要受限于低频数据集的训练。
- 论文构建了一个毫秒级分辨率的无线网络数据集,旨在为时间序列基础模型提供高频数据预训练。
- 实验表明,现有时间序列基础模型在该数据集上表现不佳,突显了高频数据的重要性。
📝 摘要(中文)
时间序列基础模型(TSFMs)需要多样化的真实世界数据集,以适应不同的领域和时间频率。然而,目前的大规模数据集主要集中在低频时间序列上,采样间隔(即时间分辨率)在秒到年之间,这阻碍了它们捕捉高频时间序列数据细微差别的能力。为了解决这个限制,我们引入了一个新的数据集,该数据集捕获了来自运营中的5G无线部署的毫秒级无线和流量状况,从而扩展了TSFMs的范围,使其能够包含用于预训练的高频数据。此外,该数据集引入了一个新的领域,即无线网络,从而补充了现有的更通用的领域,如能源和金融。该数据集还为短期预测提供了用例,预测范围从100毫秒(1步)到9.6秒(96步)。通过使用该数据集对预测任务上的传统机器学习模型和TSFMs进行基准测试,我们证明了大多数TSFM模型配置在这种新的数据分布上,在零样本和微调设置中都表现不佳。我们的工作强调了在预训练和预测过程中加入高频数据集的重要性,以增强TSFM在实际应用中的架构、微调策略、泛化性和鲁棒性。
🔬 方法详解
问题定义:现有时间序列基础模型(TSFMs)在处理高频时间序列数据时面临挑战。现有的TSFMs主要在低频数据上进行训练,无法有效捕捉高频数据中的细微变化和模式。这限制了它们在需要快速响应和精确预测的应用中的性能。
核心思路:论文的核心思路是提供一个高质量、高分辨率的无线网络数据集,用于预训练和评估TSFMs。通过在高频数据上进行训练,TSFMs可以更好地学习高频信号的特征,从而提高其在相关任务中的性能。这种方法旨在弥补现有数据集的不足,并推动TSFMs在高频数据处理方面的研究。
技术框架:该研究主要围绕数据集的构建和评估展开。首先,从实际运营的5G无线网络中收集毫秒级分辨率的无线和流量数据。然后,使用该数据集对现有的TSFMs和传统机器学习模型进行基准测试,评估它们在短期预测任务中的性能。实验包括零样本学习和微调两种设置,以全面评估模型的泛化能力和适应性。
关键创新:该论文的关键创新在于构建了一个新的、高质量的毫秒级无线网络数据集。该数据集不仅提供了高频数据,还引入了一个新的领域(无线网络),从而扩展了TSFMs的应用范围。此外,论文还通过实验证明了现有TSFMs在高频数据上的局限性,强调了在高频数据上进行预训练的重要性。
关键设计:数据集包含来自5G无线网络的无线和流量数据,采样频率为毫秒级。预测任务包括短期预测,预测范围从100毫秒到9.6秒。实验中使用了多种TSFMs和传统机器学习模型,并采用标准的评估指标(如均方误差)来评估模型的性能。微调策略包括调整学习率和训练轮数,以优化模型在特定数据集上的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有时间序列基础模型在新的毫秒级无线网络数据集上表现不佳,无论是在零样本学习还是微调设置下。这突显了现有模型在高频数据处理方面的局限性,并强调了在高频数据上进行预训练的重要性。具体性能数据未在摘要中给出,需要查阅论文全文。
🎯 应用场景
该研究成果可应用于无线网络优化、流量预测、异常检测等领域。通过利用高频时间序列数据,可以更精确地预测网络状态,从而实现更智能的网络管理和资源分配。此外,该数据集也可以促进时间序列基础模型在高频数据处理方面的研究,推动相关技术的发展。
📄 摘要(原文)
Time series foundation models (TSFMs) require diverse, real-world datasets to adapt across varying domains and temporal frequencies. However, current large-scale datasets predominantly focus on low-frequency time series with sampling intervals, i.e., time resolution, in the range of seconds to years, hindering their ability to capture the nuances of high-frequency time series data. To address this limitation, we introduce a novel dataset that captures millisecond-resolution wireless and traffic conditions from an operational 5G wireless deployment, expanding the scope of TSFMs to incorporate high-frequency data for pre-training. Further, the dataset introduces a new domain, wireless networks, thus complementing existing more general domains like energy and finance. The dataset also provides use cases for short-term forecasting, with prediction horizons spanning from 100 milliseconds (1 step) to 9.6 seconds (96 steps). By benchmarking traditional machine learning models and TSFMs on predictive tasks using this dataset, we demonstrate that most TSFM model configurations perform poorly on this new data distribution in both zero-shot and fine-tuned settings. Our work underscores the importance of incorporating high-frequency datasets during pre-training and forecasting to enhance architectures, fine-tuning strategies, generalization, and robustness of TSFMs in real-world applications.