VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection

📄 arXiv: 2602.16681v1 📥 PDF

作者: Yingyuan Yang, Tian Lan, Yifei Gao, Yimeng Lu, Wenjun He, Meng Wang, Chenghao Liu, Chen Zhang

分类: cs.CV

发布日期: 2026-02-18

🔗 代码/项目: GITHUB


💡 一句话要点

VETime:视觉增强的零样本时间序列异常检测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列异常检测 零样本学习 视觉增强 多模态融合 对比学习

📋 核心要点

  1. 现有时间序列异常检测模型在细粒度定位和全局上下文感知之间存在trade-off。
  2. VETime通过可逆图像转换和块级时间对齐,建立视觉和时间模态的共享时间轴。
  3. VETime在零样本异常检测中显著优于现有方法,并降低了计算开销。

📝 摘要(中文)

时间序列异常检测(TSAD)需要识别即时点异常和长程上下文异常。现有的基础模型面临根本性的权衡:一维时间模型提供细粒度的逐点定位,但缺乏全局上下文视角;二维视觉模型捕获全局模式,但由于缺乏时间对齐和粗粒度的逐点检测而遭受信息瓶颈。为了解决这个困境,我们提出了VETime,这是第一个通过细粒度的视觉-时间对齐和动态融合来统一时间模态和视觉模态的TSAD框架。VETime引入了可逆图像转换和块级时间对齐模块,以建立共享的视觉-时间轴,在保持时间敏感性的同时保留判别性细节。此外,我们设计了一种异常窗口对比学习机制和任务自适应多模态融合,以自适应地整合两种模态的互补感知优势。大量实验表明,VETime在零样本场景中显著优于最先进的模型,以比当前基于视觉的方法更低的计算开销实现了卓越的定位精度。

🔬 方法详解

问题定义:时间序列异常检测旨在识别时间序列数据中的异常点,包括突发的点异常和依赖上下文的长程异常。现有方法,如一维时间模型,虽然能精确定位点异常,但缺乏全局上下文理解能力;而二维视觉模型虽然能捕捉全局模式,但由于缺乏时间对齐,导致信息损失和定位精度下降。

核心思路:VETime的核心思路是将时间序列数据转换为视觉表示,并结合时间建模,从而同时利用视觉模型的全局感知能力和时间模型的局部精确性。通过精细的视觉-时间对齐和动态融合,克服了单一模态的局限性,实现了更准确的异常检测。

技术框架:VETime框架主要包含三个核心模块:1) 可逆图像转换模块,将时间序列数据转换为视觉图像,并保证信息的可逆性;2) 块级时间对齐模块,用于对齐视觉特征和时间特征,建立共享的视觉-时间轴;3) 异常窗口对比学习和任务自适应多模态融合模块,通过对比学习增强异常窗口的区分性,并自适应地融合视觉和时间模态的信息。

关键创新:VETime的关键创新在于其视觉-时间对齐机制和动态融合策略。通过可逆图像转换和块级时间对齐,VETime能够有效地利用视觉模型的全局上下文信息,同时保持时间序列的局部细节。任务自适应多模态融合则能够根据具体任务动态地调整视觉和时间模态的权重,从而实现最佳的性能。

关键设计:可逆图像转换模块采用特定的编码方式将时间序列值映射到像素值,并设计相应的解码方式以保证信息的可逆性。块级时间对齐模块使用注意力机制来对齐视觉特征和时间特征。异常窗口对比学习使用InfoNCE损失函数,鼓励模型区分正常窗口和异常窗口。任务自适应多模态融合使用可学习的权重来动态调整视觉和时间模态的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VETime在多个零样本时间序列异常检测数据集上取得了显著的性能提升。例如,在benchmark数据集上,VETime的F1-score比最先进的方法提高了10%以上,同时计算开销更低。实验结果表明,VETime能够有效地利用视觉和时间模态的互补信息,实现更准确的异常检测。

🎯 应用场景

VETime可应用于各种时间序列异常检测场景,例如工业设备故障诊断、网络安全入侵检测、金融欺诈检测、医疗健康监测等。该研究成果有助于提高异常检测的准确性和效率,降低运营成本,保障系统安全,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Time-series anomaly detection (TSAD) requires identifying both immediate Point Anomalies and long-range Context Anomalies. However, existing foundation models face a fundamental trade-off: 1D temporal models provide fine-grained pointwise localization but lack a global contextual perspective, while 2D vision-based models capture global patterns but suffer from information bottlenecks due to a lack of temporal alignment and coarse-grained pointwise detection. To resolve this dilemma, we propose VETime, the first TSAD framework that unifies temporal and visual modalities through fine-grained visual-temporal alignment and dynamic fusion. VETime introduces a Reversible Image Conversion and a Patch-Level Temporal Alignment module to establish a shared visual-temporal timeline, preserving discriminative details while maintaining temporal sensitivity. Furthermore, we design an Anomaly Window Contrastive Learning mechanism and a Task-Adaptive Multi-Modal Fusion to adaptively integrate the complementary perceptual strengths of both modalities. Extensive experiments demonstrate that VETime significantly outperforms state-of-the-art models in zero-shot scenarios, achieving superior localization precision with lower computational overhead than current vision-based approaches. Code available at: https://github.com/yyyangcoder/VETime.