SpecTM: Spectral Targeted Masking for Trustworthy Foundation Models
作者: Syed Usama Imtiaz, Mitra Nasr Azadani, Nasrin Alamdari
分类: cs.AI, cs.LG
发布日期: 2026-03-23
备注: Accepted to IEEE IGARSS 2026
💡 一句话要点
SpecTM:面向可信基础模型的谱段针对性掩码策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地球观测 基础模型 自监督学习 谱段掩码 物理信息 高光谱图像 微囊藻浓度预测
📋 核心要点
- 地球观测基础模型缺乏物理约束,依赖随机掩码,限制了其在公共健康决策等领域的应用。
- SpecTM通过物理信息驱动的谱段针对性掩码,鼓励模型学习跨光谱上下文信息,重建目标谱段。
- 实验表明,SpecTM在微囊藻浓度预测任务上显著优于基线模型,并提升了标签利用效率。
📝 摘要(中文)
针对地球观测(EO)领域基础模型依赖随机掩码且缺乏物理约束的问题,本文提出了谱段针对性掩码(SpecTM)方法。SpecTM是一种物理信息驱动的掩码设计,旨在鼓励模型在预训练期间利用跨光谱上下文重建目标谱段。为此,我们开发了一个可适应的多任务(谱段重建、生物光学指数推断和提前8天的时间预测)自监督学习(SSL)框架,通过联合优化编码光谱内在表示。在NASA PACE高光谱图像数据集上,针对伊利湖微囊藻浓度回归的下游任务进行评估,SpecTM在当前周和提前8天的预测中分别达到R^2 = 0.695和R^2 = 0.620,超越所有基线模型(分别提升34%和99%)。消融实验表明,相比随机掩码,针对性掩码使预测R^2提升0.037。此外,在极端数据稀缺情况下,SpecTM以2.2倍的标签效率优于强基线。SpecTM实现了跨EO领域的物理信息表示学习,并提高了基础模型的可解释性。
🔬 方法详解
问题定义:现有地球观测领域的基础模型通常采用随机掩码策略进行预训练,这种方法忽略了光谱数据内在的物理规律和约束。这导致模型在下游任务中表现不佳,尤其是在需要高可信度的预测任务中,例如公共健康决策。现有方法的痛点在于缺乏对物理信息的有效利用,导致模型泛化能力受限。
核心思路:SpecTM的核心思路是利用物理信息指导掩码策略,即“谱段针对性掩码”。其基本思想是,在预训练阶段,有选择性地掩盖某些光谱波段,并要求模型利用其他波段的信息来重建这些被掩盖的波段。这样可以迫使模型学习不同波段之间的相关性,从而更好地理解光谱数据的物理意义。
技术框架:SpecTM采用一个多任务自监督学习框架。该框架包含三个主要任务:谱段重建、生物光学指数推断和提前8天的时间预测。谱段重建任务是核心,通过掩码部分谱段并要求模型重建来实现。生物光学指数推断任务和时间预测任务作为辅助任务,进一步提升模型的表示学习能力。整个框架通过联合优化这三个任务来学习光谱数据的内在表示。
关键创新:SpecTM最重要的技术创新点在于其物理信息驱动的掩码策略。与传统的随机掩码不同,SpecTM根据光谱数据的物理特性,有选择性地掩盖某些波段。这种针对性的掩码策略能够更有效地引导模型学习光谱数据中的物理规律,从而提升模型的性能和可解释性。
关键设计:SpecTM的关键设计包括:1) 针对不同光谱波段的掩码概率设置,根据波段的重要性进行调整;2) 多任务学习框架中,三个任务的权重设置,通过实验确定最优权重;3) 网络结构的选择,作者使用了Transformer架构,并针对光谱数据的特点进行了优化;4) 损失函数的设计,使用了均方误差(MSE)损失函数来衡量谱段重建的误差。
🖼️ 关键图片
📊 实验亮点
SpecTM在伊利湖微囊藻浓度预测任务上取得了显著的性能提升。与基线模型相比,SpecTM在当前周和提前8天的预测中分别达到R^2 = 0.695和R^2 = 0.620,超越所有基线模型(分别提升34%和99%)。消融实验表明,相比随机掩码,针对性掩码使预测R^2提升0.037。此外,在极端数据稀缺情况下,SpecTM以2.2倍的标签效率优于强基线。
🎯 应用场景
SpecTM具有广泛的应用前景,可应用于环境监测、精准农业、气候变化研究等领域。通过提升地球观测基础模型的可信度和预测精度,SpecTM能够为公共健康决策、资源管理和可持续发展提供更可靠的依据。未来,SpecTM有望应用于更广泛的遥感数据分析任务,并与其他物理模型相结合,实现更精确的地球系统模拟。
📄 摘要(原文)
Foundation models are now increasingly being developed for Earth observation (EO), yet they often rely on stochastic masking that do not explicitly enforce physics constraints; a critical trustworthiness limitation, in particular for predictive models that guide public health decisions. In this work, we propose SpecTM (Spectral Targeted Masking), a physics-informed masking design that encourages the reconstruction of targeted bands from cross-spectral context during pretraining. To achieve this, we developed an adaptable multi-task (band reconstruction, bio-optical index inference, and 8-day-ahead temporal prediction) self-supervised learning (SSL) framework that encodes spectrally intrinsic representations via joint optimization, and evaluated it on a downstream microcystin concentration regression model using NASA PACE hyperspectral imagery over Lake Erie. SpecTM achieves R^2 = 0.695 (current week) and R^2 = 0.620 (8-day-ahead) predictions surpassing all baseline models by (+34% (0.51 Ridge) and +99% (SVR 0.31)) respectively. Our ablation experiments show targeted masking improves predictions by +0.037 R^2 over random masking. Furthermore, it outperforms strong baselines with 2.2x superior label efficiency under extreme scarcity. SpecTM enables physics-informed representation learning across EO domains and improves the interpretability of foundation models.