LEFT: Learnable Fusion of Tri-view Tokens for Unsupervised Time Series Anomaly Detection
作者: Dezheng Wang, Tong Chen, Guansong Pang, Congyan Chen, Shihua Li, Hongzhi Yin
分类: cs.LG, cs.AI
发布日期: 2026-02-09
💡 一句话要点
提出LEFT框架,通过可学习的三视图Token融合进行无监督时间序列异常检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间序列异常检测 无监督学习 多视图学习 Token融合 循环一致性
📋 核心要点
- 现有无监督时间序列异常检测方法难以捕捉跨视图的细微异常,且缺乏分析-合成一致性约束。
- LEFT框架通过学习时域、频域和多尺度三种视图的特征Token,建模跨视图的不一致性来检测异常。
- 实验表明,LEFT在检测精度上优于现有方法,同时显著降低了计算复杂度和训练时间。
📝 摘要(中文)
无监督时间序列异常检测(TSAD)是一项基础数据挖掘任务,旨在构建模型以识别异常时间戳,而无需标注数据。该任务的关键挑战在于,许多异常过于细微,无法在任何单一视图(例如,时域)中表现出可检测的偏差,而是表现为跨多个视图(如时间、频率和混合分辨率)的不一致性。然而,大多数跨视图方法依赖于特征或分数融合,并且不强制执行分析-合成一致性,这意味着频率分支不需要通过逆变换来重建时间信号,反之亦然。本文提出了一种统一的无监督TSAD框架——可学习的三视图Token融合(LEFT),该框架将异常建模为互补表示之间不一致性。LEFT从同一输入时间序列的三个视图中学习特征token:嵌入周期性信息的频域token、捕获局部动态的时域token,以及学习不同时间序列粒度下的异常模式的多尺度token。通过学习一组自适应奈奎斯特约束的频谱滤波器,原始时间序列被重新缩放到多个分辨率然后进行编码,从而使这些多尺度token能够补充提取的频率和时域信息。在生成融合表示时,我们引入了一种新颖的目标,即从较粗糙的多尺度结构重建精细的目标,并提出了一种创新的时频循环一致性约束,以显式地规范跨视图一致性。在真实世界基准上的实验表明,LEFT产生了优于SOTA基线的最佳检测精度,同时实现了FLOPs减少5倍和训练速度提高8倍。
🔬 方法详解
问题定义:无监督时间序列异常检测旨在无需标注的情况下识别时间序列中的异常时间点。现有方法的痛点在于,许多异常在单一视图下难以检测,需要结合多个视图的信息。然而,现有跨视图方法通常只进行简单的特征或分数融合,忽略了视图之间的分析-合成一致性,即无法从一个视图重建另一个视图。
核心思路:LEFT的核心思路是将异常建模为不同视图之间不一致性的体现。通过学习时域、频域和多尺度三种互补的特征表示,并利用时频循环一致性约束,使得模型能够捕捉到跨视图的细微异常。
技术框架:LEFT框架包含三个主要模块:时域Token提取、频域Token提取和多尺度Token提取。时域Token提取局部动态信息,频域Token提取周期性信息,多尺度Token提取不同时间粒度的异常模式。然后,通过可学习的融合机制将三个视图的Token融合,并使用时频循环一致性约束来正则化跨视图一致性。最终,通过重建误差来判断时间点是否异常。
关键创新:LEFT的关键创新在于:1) 提出了三视图Token融合的框架,能够有效捕捉跨视图的异常信息;2) 引入了自适应奈奎斯特约束的频谱滤波器,用于生成多尺度表示;3) 提出了时频循环一致性约束,显式地正则化跨视图的一致性。
关键设计:LEFT使用Transformer网络提取时域和频域Token。多尺度Token通过学习一组自适应奈奎斯特约束的频谱滤波器,将原始时间序列分解为多个分辨率。时频循环一致性约束通过最小化时域信号经过傅里叶变换再经过逆傅里叶变换后的重建误差来实现。损失函数包括重建损失和时频循环一致性损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LEFT在多个真实世界时间序列数据集上取得了最佳的异常检测精度,显著优于现有的SOTA基线方法。同时,LEFT在计算复杂度方面也具有优势,实现了FLOPs减少5倍和训练速度提高8倍。
🎯 应用场景
LEFT框架可应用于各种时间序列异常检测场景,例如网络安全中的入侵检测、金融领域的欺诈检测、工业生产中的设备故障诊断以及医疗健康领域的疾病预警等。该研究成果有助于提高异常检测的准确性和效率,降低人工干预成本,具有重要的实际应用价值。
📄 摘要(原文)
As a fundamental data mining task, unsupervised time series anomaly detection (TSAD) aims to build a model for identifying abnormal timestamps without assuming the availability of annotations. A key challenge in unsupervised TSAD is that many anomalies are too subtle to exhibit detectable deviation in any single view (e.g., time domain), and instead manifest as inconsistencies across multiple views like time, frequency, and a mixture of resolutions. However, most cross-view methods rely on feature or score fusion and do not enforce analysis-synthesis consistency, meaning the frequency branch is not required to reconstruct the time signal through an inverse transform, and vice versa. In this paper, we present Learnable Fusion of Tri-view Tokens (LEFT), a unified unsupervised TSAD framework that models anomalies as inconsistencies across complementary representations. LEFT learns feature tokens from three views of the same input time series: frequency-domain tokens that embed periodicity information, time-domain tokens that capture local dynamics, and multi-scale tokens that learns abnormal patterns at varying time series granularities. By learning a set of adaptive Nyquist-constrained spectral filters, the original time series is rescaled into multiple resolutions and then encoded, allowing these multi-scale tokens to complement the extracted frequency- and time-domain information. When generating the fused representation, we introduce a novel objective that reconstructs fine-grained targets from coarser multi-scale structure, and put forward an innovative time-frequency cycle consistency constraint to explicitly regularize cross-view agreement. Experiments on real-world benchmarks show that LEFT yields the best detection accuracy against SOTA baselines, while achieving a 5x reduction on FLOPs and 8x speed-up for training.