A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe

作者: Wendong Yao, Binhua Huang, Soumyabrata Dev

分类: eess.SP, cs.AI, cs.CV, cs.LG

发布日期: 2025-12-30

备注: submitted to ISPRS Journal of Photogrammetry and Remote Sensing for review

💡 一句话要点

提出多模态Transformer，用于InSAR地表形变预测并提升跨区域泛化能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: InSAR 地表形变预测 Transformer 多模态融合 时间序列分析 深度学习 欧洲地表运动服务

📋 核心要点

现有方法难以有效预测地表形变，因为其受到长期趋势、季节性变化和突发事件的复杂影响，以及显著的空间异质性。
论文提出一种多模态Transformer模型，该模型融合了位移快照、静态运动学指标和时间编码，以提升预测精度。
实验结果表明，该模型在InSAR地表形变预测任务上优于其他模型，在RMSE和R^2指标上均有显著提升。

📝 摘要（中文）

为了支持城市规划、关键基础设施管理和自然灾害减缓，对地表形变进行近实时区域尺度监测的需求日益增长。干涉合成孔径雷达(InSAR)和欧洲地表运动服务(EGMS)等洲际服务提供了密集的历史运动观测数据，但由于长期趋势、季节性周期、突发不连续性(如同震阶跃)以及强烈的空间异质性的叠加，预测下一次观测仍然具有挑战性。本研究提出了一种多模态的基于patch的Transformer，用于对EGMS时间序列进行单步、固定间隔的下一时期位移图的临近预报(重采样到100 km x 100 km瓦片的64x64网格)。该模型摄取最近的位移快照，以及(i)仅从训练窗口以防数据泄露的方式计算的静态运动学指标(平均速度、加速度、季节性幅度)和(ii)年积日谐波编码。在爱尔兰东部瓦片(E32N34)上，STGCN在仅使用位移的情况下表现最强，而当所有模型接收相同的多模态输入时，多模态Transformer明显优于CNN-LSTM、CNN-LSTM+Attn和多模态STGCN，在测试集上实现了RMSE = 0.90 mm和$R^2$ = 0.97，并具有最佳的阈值精度。

🔬 方法详解

问题定义：论文旨在解决基于InSAR数据的地表形变预测问题，特别是在存在长期趋势、季节性周期和突发不连续性等复杂因素的情况下。现有方法难以有效捕捉这些复杂模式，导致预测精度较低，且泛化能力不足。

核心思路：论文的核心思路是利用Transformer模型强大的序列建模能力，并结合多模态信息，包括历史位移数据、静态运动学指标和时间编码，以更全面地理解地表形变的动态过程。通过融合多种信息源，模型能够更好地捕捉地表形变的复杂模式，从而提高预测精度和泛化能力。

技术框架：该模型采用基于patch的Transformer架构。整体流程如下：1) 将EGMS时间序列重采样到64x64网格；2) 输入最近的位移快照；3) 输入静态运动学指标（平均速度、加速度、季节性幅度），这些指标仅从训练窗口计算，以避免数据泄露；4) 输入年积日谐波编码；5) 使用Transformer模型进行序列建模和预测。

关键创新：该研究的关键创新在于多模态信息的融合和Transformer模型的应用。传统方法通常只依赖于历史位移数据，而该研究将静态运动学指标和时间编码纳入模型，从而更全面地描述了地表形变的特征。此外，Transformer模型能够有效地捕捉时间序列中的长程依赖关系，这对于预测地表形变至关重要。

关键设计：模型使用patch-based方法处理位移数据，将64x64的位移图分割成多个patch，然后将这些patch输入到Transformer模型中。静态运动学指标包括平均速度、加速度和季节性幅度，这些指标反映了地表形变的长期趋势和周期性变化。年积日谐波编码用于表示时间信息，帮助模型理解地表形变的季节性变化。损失函数采用均方根误差（RMSE）和R^2系数作为评价指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该多模态Transformer模型在爱尔兰东部瓦片(E32N34)上取得了显著的性能提升。当所有模型接收相同的多模态输入时，该模型明显优于CNN-LSTM、CNN-LSTM+Attn和多模态STGCN，在测试集上实现了RMSE = 0.90 mm和$R^2$ = 0.97，并具有最佳的阈值精度。这表明该模型能够有效地捕捉地表形变的复杂模式，并提高预测精度。

🎯 应用场景

该研究成果可应用于城市规划、关键基础设施管理和自然灾害减缓等领域。通过准确预测地表形变，可以帮助识别潜在的地质灾害风险，为城市建设和基础设施维护提供决策支持，并提高应对自然灾害的能力。此外，该模型具有跨区域泛化能力，可以推广到其他地区的地表形变预测任务中。

📄 摘要（原文）

Near-real-time regional-scale monitoring of ground deformation is increasingly required to support urban planning, critical infrastructure management, and natural hazard mitigation. While Interferometric Synthetic Aperture Radar (InSAR) and continental-scale services such as the European Ground Motion Service (EGMS) provide dense observations of past motion, predicting the next observation remains challenging due to the superposition of long-term trends, seasonal cycles, and occasional abrupt discontinuities (e.g., co-seismic steps), together with strong spatial heterogeneity. In this study we propose a multimodal patch-based Transformer for single-step, fixed-interval next-epoch nowcasting of displacement maps from EGMS time series (resampled to a 64x64 grid over 100 km x 100 km tiles). The model ingests recent displacement snapshots together with (i) static kinematic indicators (mean velocity, acceleration, seasonal amplitude) computed in a leakage-safe manner from the training window only, and (ii) harmonic day-of-year encodings. On the eastern Ireland tile (E32N34), the STGCN is strongest in the displacement-only setting, whereas the multimodal Transformer clearly outperforms CNN-LSTM, CNN-LSTM+Attn, and multimodal STGCN when all models receive the same multimodal inputs, achieving RMSE = 0.90 mm and $R^2$ = 0.97 on the test set with the best threshold accuracies.

A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理