Time2Agri: Temporal Pretext Tasks for Agricultural Monitoring

📄 arXiv: 2507.04366v1 📥 PDF

作者: Moti Rattan Gupta, Anupam Sobti

分类: cs.LG, cs.CV

发布日期: 2025-07-06


💡 一句话要点

Time2Agri:面向农业监测的时序自监督预训练任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 农业遥感 自监督学习 时序数据 预训练任务 作物监测

📋 核心要点

  1. 现有遥感基础模型忽略了农业景观的时序特性,无法有效捕捉农作物生长周期等信息。
  2. 提出Time2Agri,包含时间差预测、时间频率预测和未来帧预测三种农业特定的自监督预训练任务。
  3. 实验表明,未来帧预测在作物制图和产量预测方面表现出色,并在印度国家尺度田界划分上优于基线。

📝 摘要(中文)

自监督学习(SSL)已成为一种高效的标签学习范式,并被遥感基础模型(RSFMs)广泛采用。最近的RSFMs,如SatMAE、DoFA,主要依赖于掩码自编码(MAE)、对比学习或它们的组合。然而,这些预训练任务通常忽略了农业景观独特的时序特征,即自然循环。受此启发,我们提出了三种新的农业特定预训练任务,即时间差预测(TD)、时间频率预测(FP)和未来帧预测(FF)。在SICKLE数据集上的综合评估表明,FF在作物制图上实现了69.6%的IoU,FP将产量预测误差降低到30.7%的MAPE,优于所有基线,而TD在大多数任务上保持竞争力。此外,我们还将FF扩展到印度国家尺度,在FTW India数据集上的田界划分方面实现了54.2%的IoU,优于所有基线。

🔬 方法详解

问题定义:现有遥感基础模型,如SatMAE和DoFA,主要采用掩码自编码或对比学习进行预训练。这些方法忽略了农业景观固有的时序依赖性,例如不同季节作物的生长变化,导致模型无法充分学习农业遥感数据的特征表示。因此,需要设计专门针对农业时序特征的预训练任务,以提升模型在农业监测任务中的性能。

核心思路:论文的核心思路是利用农业遥感数据的时间序列特性,设计自监督预训练任务,迫使模型学习不同时间点之间的关系。通过预测时间差、时间频率和未来帧,模型能够更好地理解农业景观的时序动态变化,从而提升下游任务的性能。

技术框架:Time2Agri包含三个主要的预训练任务:1) 时间差预测(TD):预测两个不同时间点遥感图像之间的差异;2) 时间频率预测(FP):预测遥感图像时间序列的频率特征;3) 未来帧预测(FF):根据过去的遥感图像预测未来的图像。这些任务可以单独或组合使用,以提升模型的时序特征学习能力。

关键创新:该论文的关键创新在于提出了针对农业遥感数据的时序自监督预训练任务。与通用的掩码自编码或对比学习方法不同,Time2Agri显式地利用了农业景观的时序信息,从而能够更好地学习农业遥感数据的特征表示。

关键设计:在未来帧预测(FF)任务中,可以使用循环神经网络(RNN)或Transformer等模型来建模时间序列数据。损失函数可以选择均方误差(MSE)或结构相似性(SSIM)等。时间差预测(TD)任务可以使用简单的卷积神经网络来预测图像之间的差异。时间频率预测(FP)任务可以使用傅里叶变换等方法提取频率特征,并使用分类器进行预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Time2Agri在作物制图和产量预测方面取得了显著的性能提升。具体而言,未来帧预测(FF)在SICKLE数据集上的作物制图任务中实现了69.6%的IoU,优于所有基线方法。时间频率预测(FP)将产量预测误差降低到30.7%的MAPE。此外,FF在印度国家尺度的田界划分任务中也取得了54.2%的IoU,超过了其他基线。

🎯 应用场景

该研究成果可应用于精准农业、作物长势监测、产量预测、灾害评估等领域。通过提升遥感图像的时序特征学习能力,可以更准确地识别作物类型、评估作物健康状况、预测作物产量,从而为农业生产提供更科学的决策支持。此外,该方法还可以扩展到其他具有时序特征的遥感应用场景,如森林监测、水资源管理等。

📄 摘要(原文)

Self Supervised Learning(SSL) has emerged as a prominent paradigm for label-efficient learning, and has been widely utilized by remote sensing foundation models(RSFMs). Recent RSFMs including SatMAE, DoFA, primarily rely on masked autoencoding(MAE), contrastive learning or some combination of them. However, these pretext tasks often overlook the unique temporal characteristics of agricultural landscape, namely nature's cycle. Motivated by this gap, we propose three novel agriculture-specific pretext tasks, namely Time-Difference Prediction(TD), Temporal Frequency Prediction(FP), and Future-Frame Prediction(FF). Comprehensive evaluation on SICKLE dataset shows FF achieves 69.6% IoU on crop mapping and FP reduces yield prediction error to 30.7% MAPE, outperforming all baselines, and TD remains competitive on most tasks. Further, we also scale FF to the national scale of India, achieving 54.2% IoU outperforming all baselines on field boundary delineation on FTW India dataset.