A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe
作者: Wendong Yao, Binhua Huang, Soumyabrata Dev
分类: eess.SP, cs.AI, cs.CV, cs.LG
发布日期: 2025-12-30
备注: submitted to ISPRS Journal of Photogrammetry and Remote Sensing for review
💡 一句话要点
提出多模态Transformer,用于InSAR地表形变预测并提升跨区域泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: InSAR 地表形变预测 Transformer 多模态融合 时间序列分析 深度学习 欧洲地表运动服务
📋 核心要点
- 现有方法难以有效预测地表形变,因为其受到长期趋势、季节性变化和突发事件的复杂影响,以及显著的空间异质性。
- 论文提出一种多模态Transformer模型,该模型融合了位移快照、静态运动学指标和时间编码,以提升预测精度。
- 实验结果表明,该模型在InSAR地表形变预测任务上优于其他模型,在RMSE和R^2指标上均有显著提升。
📝 摘要(中文)
为了支持城市规划、关键基础设施管理和自然灾害减缓,对地表形变进行近实时区域尺度监测的需求日益增长。干涉合成孔径雷达(InSAR)和欧洲地表运动服务(EGMS)等洲际服务提供了密集的历史运动观测数据,但由于长期趋势、季节性周期、突发不连续性(如同震阶跃)以及强烈的空间异质性的叠加,预测下一次观测仍然具有挑战性。本研究提出了一种多模态的基于patch的Transformer,用于对EGMS时间序列进行单步、固定间隔的下一时期位移图的临近预报(重采样到100 km x 100 km瓦片的64x64网格)。该模型摄取最近的位移快照,以及(i)仅从训练窗口以防数据泄露的方式计算的静态运动学指标(平均速度、加速度、季节性幅度)和(ii)年积日谐波编码。在爱尔兰东部瓦片(E32N34)上,STGCN在仅使用位移的情况下表现最强,而当所有模型接收相同的多模态输入时,多模态Transformer明显优于CNN-LSTM、CNN-LSTM+Attn和多模态STGCN,在测试集上实现了RMSE = 0.90 mm和$R^2$ = 0.97,并具有最佳的阈值精度。
🔬 方法详解
问题定义:论文旨在解决基于InSAR数据的地表形变预测问题,特别是在存在长期趋势、季节性周期和突发不连续性等复杂因素的情况下。现有方法难以有效捕捉这些复杂模式,导致预测精度较低,且泛化能力不足。
核心思路:论文的核心思路是利用Transformer模型强大的序列建模能力,并结合多模态信息,包括历史位移数据、静态运动学指标和时间编码,以更全面地理解地表形变的动态过程。通过融合多种信息源,模型能够更好地捕捉地表形变的复杂模式,从而提高预测精度和泛化能力。
技术框架:该模型采用基于patch的Transformer架构。整体流程如下:1) 将EGMS时间序列重采样到64x64网格;2) 输入最近的位移快照;3) 输入静态运动学指标(平均速度、加速度、季节性幅度),这些指标仅从训练窗口计算,以避免数据泄露;4) 输入年积日谐波编码;5) 使用Transformer模型进行序列建模和预测。
关键创新:该研究的关键创新在于多模态信息的融合和Transformer模型的应用。传统方法通常只依赖于历史位移数据,而该研究将静态运动学指标和时间编码纳入模型,从而更全面地描述了地表形变的特征。此外,Transformer模型能够有效地捕捉时间序列中的长程依赖关系,这对于预测地表形变至关重要。
关键设计:模型使用patch-based方法处理位移数据,将64x64的位移图分割成多个patch,然后将这些patch输入到Transformer模型中。静态运动学指标包括平均速度、加速度和季节性幅度,这些指标反映了地表形变的长期趋势和周期性变化。年积日谐波编码用于表示时间信息,帮助模型理解地表形变的季节性变化。损失函数采用均方根误差(RMSE)和R^2系数作为评价指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该多模态Transformer模型在爱尔兰东部瓦片(E32N34)上取得了显著的性能提升。当所有模型接收相同的多模态输入时,该模型明显优于CNN-LSTM、CNN-LSTM+Attn和多模态STGCN,在测试集上实现了RMSE = 0.90 mm和$R^2$ = 0.97,并具有最佳的阈值精度。这表明该模型能够有效地捕捉地表形变的复杂模式,并提高预测精度。
🎯 应用场景
该研究成果可应用于城市规划、关键基础设施管理和自然灾害减缓等领域。通过准确预测地表形变,可以帮助识别潜在的地质灾害风险,为城市建设和基础设施维护提供决策支持,并提高应对自然灾害的能力。此外,该模型具有跨区域泛化能力,可以推广到其他地区的地表形变预测任务中。
📄 摘要(原文)
Near-real-time regional-scale monitoring of ground deformation is increasingly required to support urban planning, critical infrastructure management, and natural hazard mitigation. While Interferometric Synthetic Aperture Radar (InSAR) and continental-scale services such as the European Ground Motion Service (EGMS) provide dense observations of past motion, predicting the next observation remains challenging due to the superposition of long-term trends, seasonal cycles, and occasional abrupt discontinuities (e.g., co-seismic steps), together with strong spatial heterogeneity. In this study we propose a multimodal patch-based Transformer for single-step, fixed-interval next-epoch nowcasting of displacement maps from EGMS time series (resampled to a 64x64 grid over 100 km x 100 km tiles). The model ingests recent displacement snapshots together with (i) static kinematic indicators (mean velocity, acceleration, seasonal amplitude) computed in a leakage-safe manner from the training window only, and (ii) harmonic day-of-year encodings. On the eastern Ireland tile (E32N34), the STGCN is strongest in the displacement-only setting, whereas the multimodal Transformer clearly outperforms CNN-LSTM, CNN-LSTM+Attn, and multimodal STGCN when all models receive the same multimodal inputs, achieving RMSE = 0.90 mm and $R^2$ = 0.97 on the test set with the best threshold accuracies.