SITS-DECO: A Generative Decoder Is All You Need For Multitask Satellite Image Time Series Modelling

📄 arXiv: 2510.21813v1 📥 PDF

作者: Samuel J. Barrett, Docko Sow

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-21

备注: 27 pages, 7 figures


💡 一句话要点

SITS-DECO:仅用生成式解码器进行多任务卫星图像时间序列建模

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卫星图像时间序列 地球观测 生成式模型 多任务学习 深度学习 作物类型分类 基础模型

📋 核心要点

  1. 现有地球观测基础模型需要针对特定任务进行调整,且架构围绕特定数据源或训练方法构建,缺乏灵活性。
  2. SITS-DECO采用GPT风格的解码器,通过统一序列建模,实现多任务学习,无需针对特定任务或模态进行调整。
  3. 实验表明,SITS-DECO在作物类型分类任务上优于更大的地球观测基础模型,验证了时间序列建模的重要性。

📝 摘要(中文)

地球观测(EO)基础模型(FM)有望简化和改进EO数据在各种实际任务中的应用。然而,现有模型大多需要额外的调整才能使用,并且围绕特定的数据源或训练方法进行严格构建。为了解决这个问题,我们从大型语言模型中获得灵感,通过统一token序列上的next-token预测来隐式地捕获各种任务,包括预训练和下游任务,从而利用训练数据的结构和多样性。我们提出了SITS-DECO(仅卫星图像时间序列解码器),这是一个概念验证的生成模型,它将这种统一序列框架应用于EO数据。使用一个简单的GPT风格的仅解码器架构,我们展示了它在一个纯粹的生成框架中执行有用的EO任务(像素级、多时相、多模态作物类型分类)的能力。通过符号提示,我们表明该模型可以在单个统一架构中执行多个监督和自监督任务,而无需任务或模态特定的调整。尽管其简单且缺乏空间上下文,SITS-DECO在作物类型分类(PASTIS-R)上优于更大的EO基础模型,这表明密集的时间序列建模是当前范例中一个关键的缺失要素。这项工作例证了一种以数据为中心的建模范例,其中能力源于训练数据的多样性和结构,而不是架构的复杂性。SITS-DECO为多模态、多任务EO建模提供了一条轻量级、实用的途径,以及通向未来生成式EO基础模型的概念桥梁。

🔬 方法详解

问题定义:论文旨在解决现有地球观测(EO)基础模型在多任务学习和适应性方面的局限性。现有模型通常需要针对特定任务进行微调,并且架构设计与特定的数据源或训练方法紧密耦合,缺乏通用性和灵活性。这限制了它们在各种EO应用中的潜力。

核心思路:论文的核心思路是借鉴大型语言模型(LLM)的成功经验,将EO数据建模转化为一个统一的序列生成问题。通过将不同的EO任务(如作物类型分类、时间序列预测等)表示为token序列,并利用一个生成式解码器(decoder-only)模型进行学习,从而实现多任务学习和零样本泛化。这种方法的关键在于利用训练数据的多样性和结构,而不是依赖复杂的模型架构。

技术框架:SITS-DECO的整体架构非常简单,基于GPT风格的decoder-only模型。该模型接收一个包含EO数据(如卫星图像时间序列)和任务描述的token序列作为输入,然后生成相应的输出token序列。任务描述通过符号提示(symbolic prompting)的方式进行编码,例如,使用特定的token来指示模型执行作物类型分类或时间序列预测。模型训练的目标是最大化生成正确输出序列的概率。

关键创新:SITS-DECO最重要的创新在于其统一的序列建模框架,它将不同的EO任务转化为一个生成问题,并利用一个简单的decoder-only模型进行学习。与现有方法相比,SITS-DECO不需要针对特定任务进行微调,并且可以处理多模态数据。此外,SITS-DECO还展示了符号提示在EO任务中的应用潜力,通过简单的token序列即可控制模型的行为。

关键设计:SITS-DECO的关键设计包括:1) 使用GPT风格的decoder-only模型,该模型擅长序列生成任务;2) 采用符号提示来编码任务信息,使得模型可以执行不同的任务;3) 使用交叉熵损失函数来训练模型,目标是最大化生成正确输出序列的概率。论文中没有明确提及具体的参数设置和网络结构细节,这部分信息可能需要在相关代码或后续工作中进一步了解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SITS-DECO在PASTIS-R数据集上的作物类型分类任务中,超越了更大的EO基础模型,证明了密集时间序列建模的重要性。尽管模型结构简单且缺乏空间上下文信息,但仍取得了优异的性能。这表明,通过有效的序列建模和数据驱动的方法,可以构建强大的EO模型。

🎯 应用场景

SITS-DECO具有广泛的应用前景,包括精准农业、环境监测、灾害评估等领域。它可以用于作物类型分类、土地利用变化检测、森林覆盖率监测等任务。该模型轻量级且易于部署,可以为资源有限的地区提供有效的EO解决方案。未来,SITS-DECO有望成为构建通用EO基础模型的关键组成部分。

📄 摘要(原文)

Earth Observation (EO) Foundation Modelling (FM) holds great promise for simplifying and improving the use of EO data for diverse real-world tasks. However, most existing models require additional adaptation before they can be used and are structured rigidly around particular data sources or training approaches. To address this, we take inspiration from large language models, where diverse tasks, both pre-training and downstream, are implicitly captured through next-token prediction over unified token sequences, leveraging the structure and diversity of the training data. We introduce SITS-DECO (Satellite Image Time Series-DECoder Only), a proof-of-concept generative model that applies this unified-sequence framing to EO data. Using a simple GPT-style decoder-only architecture, and demonstrate its ability to perform useful EO tasks (pixel-wise, multi-temporal, multi-modal crop-type classification) in a purely generative framework. Through symbolic prompting, we show that the model can perform multiple supervised and self-supervised tasks within a single unified architecture, without task- or modality-specific adaptation. Despite its simplicity and lack of spatial context, SITS-DECO outperforms much larger EO foundation models on crop-type classification (PASTIS-R) demonstrating that dense temporal sequence modelling is a critical missing ingredient in the current paradigm. This work exemplifies a data-centric modelling paradigm in which capability arises from the diversity and structure of the training data rather than from architectural complexity. SITS-DECO provides a lightweight, practical route to multi-modal, multi-task EO modelling, and a conceptual bridge toward future generative EO foundation models.