Estimating Mutual Information between Time Series and Temporal Event Sequences Across Diverse Analysis Tasks
作者: Haoji Hu, Huaqing Mao, Yijun Lin, Xiaowei Jia, Jinwei Zhou, Minoh Jeong, Yao-Yi Chiang
分类: cs.LG, cs.AI, cs.IT
发布日期: 2026-06-01
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种非参数互信息估计器,用于量化时间序列与事件序列间的依赖关系。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 互信息估计 时间序列分析 事件序列 因果关系分析 特征选择 非参数方法 异构数据
📋 核心要点
- 现有方法在量化时间序列和事件序列的依赖性时,存在对量化、重复值和事件冗余敏感的问题,导致结果偏差或不稳定。
- 论文提出一种非参数互信息估计器,通过建模连续-离散二元性并引入潜在事件聚类,直接测量异构时间数据的依赖性。
- 实验表明,该方法在因果分析、重复发现、特征选择等任务中,相比现有方法在准确性、稳健性和可解释性方面均有提升。
📝 摘要(中文)
成对依赖性度量(如相关性和因果关系)是时间数据挖掘的基础,但目前尚无原则性强且稳健的方法来量化异构数据类型之间的依赖性,尤其是在连续时间序列和离散时间事件序列之间。现有方法依赖于临时转换或对量化、重复值和事件冗余高度敏感的互信息估计器,导致实践中出现偏差或不稳定的结果。我们提出了一种非参数互信息估计器,可以直接测量时间序列和事件序列之间的依赖性,无需数据转换、学习或临时离散化。我们的方法对真实世界时间序列的连续-离散二元性进行建模,以处理量化和重复值伪影,并引入潜在事件聚类策略,以减轻事件共现和冗余带来的偏差。总而言之,这产生了一个稳健且统一的框架,桥接了离散和连续互信息。我们在四个代表性任务上评估了所提出的估计器:用于因果关系分析的离散-连续时延互信息、全局和局部时间重复发现、用于时间序列预测的离散协变量选择以及用于分类的连续特征选择。在合成和真实世界数据集上的实验表明,与现有方法相比,在准确性、稳健性和可解释性方面都有持续的改进,使我们的方法成为异构时间数据的通用依赖性算子,类似于同构时间序列的Pearson相关性。
🔬 方法详解
问题定义:论文旨在解决如何准确、稳健地量化连续时间序列和离散时间事件序列之间的依赖关系的问题。现有方法,如基于数据转换或特定互信息估计器的方法,对数据预处理(如量化)和数据特性(如重复值、事件冗余)非常敏感,导致估计结果存在偏差或不稳定。
核心思路:论文的核心思路是提出一种非参数的互信息估计器,该估计器能够直接处理连续时间序列和离散事件序列,无需进行数据转换或离散化。通过建模时间序列的连续-离散二元性,并结合潜在事件聚类,来减轻量化、重复值和事件冗余带来的影响。
技术框架:该方法主要包含两个核心模块:一是连续-离散二元性建模,用于处理时间序列的量化和重复值问题;二是潜在事件聚类,用于降低事件共现和冗余带来的偏差。整体流程是,首先对时间序列和事件序列进行预处理,然后利用二元性建模和事件聚类来计算互信息。
关键创新:该方法最重要的创新在于提出了一种能够直接处理连续和离散数据的互信息估计器,避免了传统方法中对数据进行离散化或转换的步骤,从而减少了信息损失和偏差。此外,潜在事件聚类的引入有效地解决了事件冗余问题,提高了估计的准确性。
关键设计:论文的关键设计包括:(1) 使用核密度估计来建模连续时间序列的概率密度函数;(2) 引入一个潜在变量来表示事件的聚类,并使用期望最大化(EM)算法来学习聚类参数;(3) 定义了一个新的互信息估计公式,该公式结合了连续时间序列的概率密度函数和事件聚类的概率分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在合成和真实数据集上均优于现有方法。在因果关系分析任务中,该方法能够更准确地识别时间序列和事件序列之间的因果关系。在时间重复发现任务中,该方法能够更有效地发现全局和局部的时间重复模式。在特征选择任务中,该方法能够选择更相关的特征,从而提高预测模型的性能。例如,在某些数据集上,该方法的准确率比现有方法提高了10%以上。
🎯 应用场景
该研究成果可广泛应用于时序数据分析领域,例如金融市场分析、医疗健康监测、环境监测等。通过准确量化异构时间数据之间的依赖关系,可以提升预测模型的性能,发现隐藏的因果关系,并支持更有效的决策制定。未来,该方法有望应用于更复杂的时序数据分析任务,如多模态时序数据融合、异常检测等。
📄 摘要(原文)
Pairwise dependence measures such as correlation and causality are fundamental to temporal data mining, yet there is still no principled and robust way to quantify dependence between heterogeneous data types, especially between continuous time series and discrete temporal event sequences. Existing approaches rely on ad hoc transformations or mutual-information estimators that are highly sensitive to quantization, repeated values, and event redundancy, leading to biased or unstable results in practice. We propose a nonparametric mutual information estimator that directly measures the dependence between time series and event sequences without data transformation, learning, or ad hoc discretization. Our method models the continuous-discrete duality of real-world time series to handle quantization and repeated-value artifacts and introduces a latent event clustering strategy to mitigate bias from event co-occurrence and redundancy. Together, these yield a robust and unified framework that bridges discrete and continuous mutual information. We evaluate the proposed estimator on four representative tasks: discrete-continuous time-delayed mutual information for causality analysis, global and local temporal repetition discovery, discrete covariate selection for time series forecasting, and continuous feature selection for classification. Experiments on synthetic and real-world datasets show consistent improvements over existing methods in accuracy, robustness, and interpretability, positioning our approach as a general-purpose dependence operator for heterogeneous temporal data, similar to Pearson correlation for homogeneous time series. Code available at: https://github.com/HaojiHu/Multimodal-Temporal-Data-Quantification