Time Series Imputation with Multivariate Radial Basis Function Neural Network

📄 arXiv: 2407.17040v2 📥 PDF

作者: Chanyoung Jung, Yun Jang

分类: cs.LG, cs.AI

发布日期: 2024-07-24 (更新: 2024-07-31)


💡 一句话要点

提出基于多元径向基函数神经网络的时间序列缺失值填充方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列填充 缺失值处理 径向基函数神经网络 循环神经网络 数据预处理 时间序列分析 非随机缺失 连续函数

📋 核心要点

  1. 时间序列数据中缺失值是一个常见问题,现有方法在估计数据分布方面存在不足。
  2. 论文提出MIM-RBFNN模型,通过学习局部信息和时间间隔来构建连续函数,从而实现缺失值填充。
  3. 进一步提出MIRNN-CF模型,利用MIM-RBFNN生成的连续函数,结合循环神经网络来提升时序信息利用。

📝 摘要(中文)

本文针对时间序列数据中缺失值问题,提出了一种基于径向基函数神经网络(RBFNN)的时间序列填充模型。该模型通过学习时间戳的局部信息来创建连续函数,并结合时间间隔来学习缺失值信息。该模型被命名为缺失值填充多元RBFNN(MIM-RBFNN)。由于MIM-RBFNN依赖于局部信息学习,难以利用时序信息,因此本文进一步提出了一个扩展模型,即基于连续函数的缺失值填充循环神经网络(MIRNN-CF),它利用MIM-RBFNN生成的连续函数。通过在两个真实世界数据集上,使用非随机和随机缺失模式进行评估,并进行了MIM-RBFNN和MIRNN-CF的消融研究。

🔬 方法详解

问题定义:时间序列数据中缺失值的填充问题,现有方法难以充分利用时间信息,且对非随机缺失模式的处理能力有限。现有方法的痛点在于无法有效建模时间序列的长期依赖关系,以及对缺失模式的鲁棒性不足。

核心思路:论文的核心思路是利用径向基函数神经网络(RBFNN)学习时间戳的局部信息,构建一个连续函数来近似时间序列,并结合时间间隔信息来处理缺失值。通过RBFNN的局部逼近能力,可以更好地拟合时间序列的局部变化,从而提高填充精度。进一步,利用循环神经网络(RNN)来建模时间序列的长期依赖关系,提升时序信息的利用。

技术框架:整体框架包含两个主要模块:MIM-RBFNN和MIRNN-CF。MIM-RBFNN首先对输入的时间序列数据进行预处理,提取时间戳和时间间隔信息。然后,利用RBFNN学习时间序列的局部信息,生成一个连续函数。MIRNN-CF则利用MIM-RBFNN生成的连续函数作为输入,通过循环神经网络(如LSTM或GRU)来建模时间序列的长期依赖关系,最终输出填充后的时间序列。

关键创新:论文的关键创新在于将RBFNN和RNN结合起来,利用RBFNN的局部逼近能力和RNN的长期依赖建模能力,从而更有效地填充时间序列中的缺失值。此外,论文还考虑了时间间隔信息,从而更好地处理非随机缺失模式。

关键设计:MIM-RBFNN的关键设计包括RBFNN的中心点选择、宽度参数设置以及输出层的权重初始化。MIRNN-CF的关键设计包括循环神经网络的类型选择(LSTM或GRU)、隐藏层大小设置以及损失函数的设计。损失函数通常采用均方误差(MSE)或平均绝对误差(MAE),用于衡量填充值与真实值之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在两个真实世界数据集上进行了实验,结果表明,所提出的MIM-RBFNN和MIRNN-CF模型在非随机和随机缺失模式下均取得了良好的填充效果。消融研究表明,MIRNN-CF模型相比MIM-RBFNN模型,在时序信息利用方面具有优势,能够进一步提高填充精度。具体性能数据未知,但结论是提出的模型优于对比基线。

🎯 应用场景

该研究成果可应用于金融、医疗、物联网等领域的时间序列数据分析。例如,在金融领域,可以用于股票价格缺失值的填充,从而提高量化交易策略的准确性。在医疗领域,可以用于患者生理指标缺失值的填充,从而辅助医生进行诊断和治疗。在物联网领域,可以用于传感器数据缺失值的填充,从而提高设备运行效率和可靠性。

📄 摘要(原文)

Researchers have been persistently working to address the issue of missing values in time series data. Numerous models have been proposed, striving to estimate the distribution of the data. The Radial Basis Functions Neural Network (RBFNN) has recently exhibited exceptional performance in estimating data distribution. In this paper, we propose a time series imputation model based on RBFNN. Our imputation model learns local information from timestamps to create a continuous function. Additionally, we incorporate time gaps to facilitate learning information considering the missing terms of missing values. We name this model the Missing Imputation Multivariate RBFNN (MIM-RBFNN). However, MIM-RBFNN relies on a local information-based learning approach, which presents difficulties in utilizing temporal information. Therefore, we propose an extension called the Missing Value Imputation Recurrent Neural Network with Continuous Function (MIRNN-CF) using the continuous function generated by MIM-RBFNN. We evaluate the performance using two real-world datasets with non-random missing and random missing patterns, and conduct an ablation study comparing MIM-RBFNN and MIRNN-CF.