RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

📄 arXiv: 2603.14941v1 📥 PDF

作者: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li

分类: cs.AI

发布日期: 2026-03-16


💡 一句话要点

提出RS-WorldModel,统一遥感理解与未来场景预测,性能超越更大规模模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 遥感 世界模型 时空预测 变化检测 多模态学习

📋 核心要点

  1. 现有遥感方法通常独立处理时空变化理解和未来场景预测,忽略了任务间的时空先验共享。
  2. RS-WorldModel通过地理感知预训练、协同指令调优和可验证强化优化,统一建模遥感理解和预测。
  3. 实验表明,RS-WorldModel在遥感问答和未来场景预测上超越了更大规模的开源及闭源模型。

📝 摘要(中文)

本文提出了一种用于遥感的世界模型RS-WorldModel,旨在统一解决时空变化理解和文本引导的未来场景预测问题,这两个任务共享时空先验知识。现有方法通常独立处理这两个任务,限制了跨任务迁移。为此,作者构建了一个包含110万样本的RSWBench-1.1M数据集,该数据集包含丰富的语言标注,覆盖了上述两个任务。RS-WorldModel的训练分为三个阶段:(1)地理感知生成预训练(GAGP),将地理和采集元数据作为预测的条件;(2)协同指令调优(SIT),联合训练理解和预测任务;(3)可验证强化优化(VRO),利用可验证的、特定于任务的奖励来优化输出。实验结果表明,RS-WorldModel仅使用20亿参数,在大多数时空变化问答指标上超越了参数量高达其120倍的开源模型。在文本引导的未来场景预测任务中,该模型实现了43.13的FID,优于所有开源基线以及闭源模型Gemini-2.5-Flash Image (Nano Banana)。

🔬 方法详解

问题定义:现有遥感世界模型通常将时空变化理解和未来场景预测作为独立任务处理,忽略了它们之间共享的时空先验知识。这种割裂的处理方式限制了模型在两个任务之间的知识迁移和泛化能力。此外,缺乏大规模、高质量的遥感数据集,特别是包含丰富语言标注的数据集,也阻碍了遥感世界模型的发展。

核心思路:RS-WorldModel的核心思路是将时空变化理解和未来场景预测统一到一个模型中,利用共享的时空先验知识来提升两个任务的性能。通过多阶段训练策略,模型首先学习地理和采集元数据的条件生成能力,然后联合训练理解和预测任务,最后利用强化学习优化模型的输出,使其更符合任务要求。

技术框架:RS-WorldModel的整体框架包含三个主要阶段:(1)地理感知生成预训练(GAGP):利用地理位置和采集时间等元数据作为条件,预训练模型的生成能力,使其能够根据地理环境和时间信息生成遥感图像。(2)协同指令调优(SIT):使用包含时空变化理解和未来场景预测任务的指令数据,联合训练模型,使其能够同时处理这两个任务。(3)可验证强化优化(VRO):使用可验证的、特定于任务的奖励函数,利用强化学习进一步优化模型的输出,使其更符合任务要求。

关键创新:RS-WorldModel的关键创新在于:(1)统一建模:将时空变化理解和未来场景预测统一到一个模型中,利用共享的时空先验知识。(2)多阶段训练策略:采用地理感知预训练、协同指令调优和可验证强化优化相结合的训练策略,提升模型的性能。(3)RSWBench-1.1M数据集:构建了一个大规模、高质量的遥感数据集,包含丰富的语言标注,为遥感世界模型的研究提供了数据支持。

关键设计:在GAGP阶段,模型使用地理位置和采集时间等元数据作为条件,通过生成对抗网络(GAN)或变分自编码器(VAE)等生成模型来生成遥感图像。在SIT阶段,模型使用Transformer架构,将遥感图像和指令文本作为输入,通过交叉注意力机制进行融合,然后输出答案或预测的未来场景图像。在VRO阶段,模型使用特定于任务的奖励函数,例如,对于时空变化理解任务,可以使用答案的准确率作为奖励;对于未来场景预测任务,可以使用FID或LPIPS等指标作为奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RS-WorldModel仅使用20亿参数,在大多数时空变化问答指标上超越了参数量高达其120倍的开源模型。在文本引导的未来场景预测任务中,该模型实现了43.13的FID,优于所有开源基线以及闭源模型Gemini-2.5-Flash Image (Nano Banana)。这些结果表明,RS-WorldModel在遥感理解和预测方面具有显著的优势。

🎯 应用场景

RS-WorldModel可应用于灾害预警、城市规划、农业监测、环境评估等领域。通过理解遥感图像中的变化并预测未来场景,该模型能够为决策者提供更全面、准确的信息支持,从而提高决策效率和质量。例如,在灾害预警方面,该模型可以预测洪水、火灾等灾害的发生和发展趋势,为及时疏散和救援提供依据。

📄 摘要(原文)

Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120$ \times $ larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).