HELIX: Hybrid Encoding with Learnable Identity and Cross-dimensional Synthesis for Time Series Imputation

📄 arXiv: 2605.02278v1 📥 PDF

作者: Fengming Zhang, Wenjie Du, Huan Zhang, Ke Yu, Shen Qu

分类: cs.LG, cs.AI

发布日期: 2026-05-04

备注: Accepted at ICML 2026 (spotlight paper)


💡 一句话要点

HELIX:融合可学习身份编码和跨维度合成的混合编码时间序列插补方法

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 时间序列插补 特征表示学习 注意力机制 混合编码 可学习身份嵌入

📋 核心要点

  1. 现有基于注意力的时间序列插补方法缺乏持久的特征表示锚点,导致特征关系在每一层被重复发现,效率较低。
  2. HELIX为每个特征分配可学习的特征身份嵌入,该嵌入在网络中保持不变,从而捕获特征的内在语义属性。
  3. 实验结果表明,HELIX在多个数据集上超越了16个基线方法,并在时间序列插补任务上取得了最先进的性能。

📝 摘要(中文)

时间序列插补受益于利用跨特征相关性,但现有的基于注意力的方法在每一层重新发现特征关系,缺乏持久的锚点来维持一致的表示。为了解决这个问题,我们提出了HELIX,它为每个特征分配一个可学习的特征身份,这是一个持久的嵌入,可以在整个网络中捕获内在的语义属性。与依赖于预定义拓扑并假设同质空间关系的基于图的方法不同,HELIX从时间协变中端到端地学习任意特征依赖关系,自然地处理特征混合空间位置和语义变量的数据集。HELIX集成了混合时间-特征注意力机制,实现了最先进的性能,在我们的评估中,在5个公共数据集的21个实验设置中超过了所有16个基线。此外,我们的机制分析表明,HELIX在各层逐步将学习到的特征身份和依赖关系与潜在的物理和语义结构对齐,表明它更有效地将跨特征结构转化为插补精度。

🔬 方法详解

问题定义:时间序列插补旨在根据已有的时间序列数据,对缺失值进行预测和填充。现有基于注意力机制的方法,在每一层网络中都需要重新学习特征之间的关系,缺乏一种持久的特征表示,导致计算冗余,且难以保持特征表示的一致性。此外,基于图的方法依赖于预定义的拓扑结构,难以处理特征之间关系复杂且动态变化的数据集。

核心思路:HELIX的核心思路是为每个特征分配一个可学习的特征身份(Feature Identity),该身份嵌入在整个网络中保持不变,作为特征的持久表示。通过这种方式,网络可以专注于学习特征之间的动态关系,而无需在每一层都重新发现特征的本质属性。同时,HELIX通过学习特征之间的依赖关系,避免了对预定义拓扑结构的依赖,从而能够更好地处理复杂的数据集。

技术框架:HELIX的整体框架包含以下几个主要模块:1) 特征身份嵌入模块:为每个特征学习一个唯一的身份嵌入。2) 混合注意力模块:结合时间和特征两个维度上的注意力机制,学习特征之间的动态依赖关系。3) 跨维度合成模块:将特征身份嵌入和动态依赖关系进行融合,生成最终的特征表示。4) 插补模块:利用学习到的特征表示,对缺失值进行预测和填充。

关键创新:HELIX的关键创新在于引入了可学习的特征身份嵌入,作为特征的持久表示。与现有方法相比,HELIX无需在每一层都重新学习特征的本质属性,从而提高了计算效率,并保持了特征表示的一致性。此外,HELIX通过学习特征之间的依赖关系,避免了对预定义拓扑结构的依赖,从而能够更好地处理复杂的数据集。

关键设计:HELIX的关键设计包括:1) 特征身份嵌入的初始化方式和更新策略。2) 混合注意力模块中,时间和特征注意力权重的计算方式。3) 跨维度合成模块中,特征身份嵌入和动态依赖关系的融合方式。4) 插补模块中,损失函数的设计,例如可以使用均方误差(MSE)或平均绝对误差(MAE)等。

📊 实验亮点

HELIX在5个公共数据集的21个实验设置中,超越了所有16个基线方法,取得了最先进的性能。具体的性能提升幅度取决于数据集和实验设置,但总体而言,HELIX在插补精度方面显著优于现有方法。此外,机制分析表明,HELIX能够有效地将学习到的特征身份和依赖关系与潜在的物理和语义结构对齐,从而提高插补精度。

🎯 应用场景

HELIX在多个领域具有广泛的应用前景,例如:智能交通中的交通流量预测、金融领域中的股票价格预测、医疗健康领域中的生理信号监测等。通过准确地插补时间序列中的缺失值,HELIX可以提高数据分析和决策的准确性和可靠性,为各行业带来实际价值。未来,HELIX可以进一步扩展到其他类型的数据,例如图像和文本数据,从而实现更广泛的应用。

📄 摘要(原文)

Time series imputation benefits from leveraging cross-feature correlations, yet existing attention-based methods re-discover feature relationships at each layer, lacking persistent anchors to maintain consistent representations. To address this, we propose HELIX, which assigns each feature a learnable feature identity, a persistent embedding that captures intrinsic semantic properties throughout the network. Unlike graph-based methods that rely on predefined topology and assume homogeneous spatial relationships, HELIX learns arbitrary feature dependencies end-to-end from temporal co-variation, naturally handling datasets where features mix spatial locations with semantic variables. Integrated with hybrid temporal-feature attention, HELIX achieves the state-of-the-art performance, surpassing all 16 baselines on 5 public datasets across 21 experimental settings in our evaluation. Furthermore, our mechanistic analysis reveals that HELIX aligns learned feature identities and dependencies with latent physical and semantic structure progressively across layers, demonstrating that it more effectively translates cross-feature structure into imputation accuracy.