T-SAR-JEPA: Self-Supervised Temporal Anomaly Detection in SAR Amplitude Stacks via Latent Prediction

📄 arXiv: 2606.05700v1 📥 PDF

作者: Kerod Woldesenbet, Abem Woldesenbet

分类: cs.CV, cs.LG

发布日期: 2026-06-04

备注: Won IEEE GRSS Data Fusion Contest 2026; to appear in IGARSS 2026 proceedings

🔗 代码/项目: GITHUB


💡 一句话要点

提出T-SAR-JEPA以解决SAR幅度堆栈中的时间异常检测问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自监督学习 SAR图像 异常检测 时间序列 深度学习

📋 核心要点

  1. 现有方法在SAR幅度堆栈中进行时间异常检测时,通常依赖于监督学习,缺乏自监督机制,导致对新场景的适应性差。
  2. T-SAR-JEPA通过自监督学习框架,利用潜在预测和时间变换器,能够有效地从历史数据中学习并预测未来状态。
  3. 在DFC 2026数据集上,T-SAR-JEPA在异常检测任务中实现了77.0%的ROC-AUC,相较于传统方法有显著提升,验证了其有效性。

📝 摘要(中文)

我们提出了T-SAR-JEPA,这是一个自监督框架,用于通过潜在预测在SAR幅度堆栈中进行时间异常检测。该模型采用了来自SAR-JEPA的ViT-Base/16编码器,并在39,300个Capella图像块上进行了领域适应,使用局部掩蔽重建和梯度特征预测。一个带有正弦时间编码的时间变换器从7次采集预测未来的潜在状态,逐步解冻显著降低了验证损失。该模型仅在幅度上运行,InSAR相干性仅作为独立的伪真实值。在DFC 2026数据集(300个时间序列,三个AOI)上,T-SAR-JEPA在夏威夷火山喷发窗口上达到了77.0%的ROC-AUC,超越了RX、PaDiM、线性自回归和LSTM基线(约50%)。99.9%的空间相干性(p < 0.001,置换检验)确认了结构化检测。

🔬 方法详解

问题定义:本论文旨在解决在SAR幅度堆栈中进行时间异常检测的挑战,现有方法通常依赖于监督学习,难以适应新场景,且对数据标注的需求较高。

核心思路:T-SAR-JEPA采用自监督学习框架,通过潜在预测来学习时间序列数据的特征,利用时间变换器预测未来状态,从而实现异常检测。

技术框架:整体架构包括ViT-Base/16编码器、局部掩蔽重建模块、梯度特征预测和时间变换器。模型通过逐步解冻的方式优化,降低验证损失。

关键创新:最重要的创新在于引入自监督学习机制和时间变换器,使得模型能够在没有标注数据的情况下进行有效学习,显著提高了检测性能。

关键设计:模型在39,300个Capella图像块上进行领域适应,使用局部掩蔽重建和正弦时间编码,优化过程中采用逐步解冻策略以减少验证损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,T-SAR-JEPA在DFC 2026数据集的夏威夷火山喷发窗口上达到了77.0%的ROC-AUC,显著高于传统方法(如RX、PaDiM、线性自回归和LSTM基线,约50%),并且空间相干性达到99.9%(p < 0.001),验证了检测结果的结构化特征。

🎯 应用场景

该研究的潜在应用领域包括遥感监测、环境变化检测和灾害响应等。通过提高SAR图像中时间异常检测的准确性,T-SAR-JEPA能够为应急管理和环境保护提供更为可靠的数据支持,具有重要的实际价值和未来影响。

📄 摘要(原文)

We present T-SAR-JEPA, a self-supervised framework for temporal anomaly detection in SAR amplitude stacks via latent prediction. A ViT-Base/16 encoder from SAR-JEPA is domain-adapted on 39,300 Capella patches using local masked reconstruction with gradient feature prediction. A temporal transformer with sinusoidal time encoding forecasts future latent states from K=7 acquisitions, with progressive unfreezing substantially reducing validation loss. The model operates on amplitude alone; InSAR coherence serves exclusively as independent pseudo-ground-truth. On the DFC 2026 dataset (300 time-series, three AOIs), T-SAR-JEPA achieves ROC-AUC of 77.0% on the Hawaii eruption window, outperforming RX, PaDiM, Linear AR, and LSTM baselines (~50%). Spatial coherence of 99.9% (p < 0.001, permutation test) confirms structured detections. Code: https://github.com/TerraLatent/t-sar-jepa