Scaling Remote Sensing Foundation Models: Data Domain Tradeoffs at the Peta-Scale

作者: Charith Wickrema, Eliza Mace, Hunter Brown, Heidys Cabrera, Nick Krall, Matthew O'Neill, Shivangi Sarkar, Lowell Weissman, Eric Hughes, Guido Zarrella

分类: cs.CV

发布日期: 2025-12-29 (更新: 2026-01-14)

💡 一句话要点

探索遥感基础模型扩展性：在Peta级数据上权衡数据域

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感基础模型 视觉Transformer Peta级数据 扩展性研究 数据限制 模型缩放 商业卫星EO数据

📋 核心要点

遥感领域缺乏对模型容量、训练计算和数据集大小之间关系的深入理解，阻碍了遥感基础模型的发展。
论文通过在Peta级商业卫星EO数据上训练视觉Transformer（ViT）骨干网络，探索遥感基础模型的扩展规律。
实验结果表明，即使在Peta级规模下，模型性能仍然受数据限制，而非模型参数限制，为遥感数据收集和模型训练提供了指导。

📝 摘要（中文）

本文探讨了人工智能的扩展行为，旨在为在高分辨率电光（EO）数据集上训练基础模型建立实用技术，这些数据集的规模超过了当前最先进水平几个数量级。现代多模态机器学习（ML）应用，如用于图像字幕、搜索和推理的生成式人工智能（GenAI）系统，依赖于针对非文本模态的强大、领域专用编码器。在自然图像领域，互联网规模的数据非常丰富，成熟的缩放定律有助于优化模型容量、训练计算和数据集大小的联合缩放。不幸的是，这些关系在高价值领域（如遥感（RS））中却鲜为人知。我们使用超过一万亿像素的商业卫星EO数据和MITRE的联邦AI沙箱，训练了逐渐增大的视觉Transformer（ViT）骨干网络，报告了在Peta级观察到的成功和失败模式，并分析了跨其他RS模态弥合领域差距的影响。我们观察到，即使在这个规模上，性能也与数据受限的机制一致，而不是模型参数受限的机制。这些实践见解旨在为数据收集策略、计算预算和优化计划提供信息，从而推进未来前沿规模RS基础模型的发展。

🔬 方法详解

问题定义：遥感领域缺乏像自然图像领域那样成熟的缩放定律，难以指导遥感基础模型的训练。现有方法难以有效利用大规模遥感数据，并且对模型容量、训练计算和数据集大小之间的关系理解不足。这导致遥感基础模型的发展受到限制，无法充分发挥其在图像字幕、搜索和推理等方面的潜力。

核心思路：论文的核心思路是通过大规模实验，探索遥感基础模型在Peta级数据上的扩展行为。通过训练不同规模的视觉Transformer（ViT）骨干网络，并分析其性能变化，从而揭示模型容量、训练计算和数据集大小之间的关系。这种方法旨在为遥感基础模型的训练提供实践指导，并促进其在各个领域的应用。

技术框架：论文使用MITRE的联邦AI沙箱和超过一万亿像素的商业卫星EO数据进行实验。整体框架包括以下几个步骤：1) 数据准备：收集和预处理大规模商业卫星EO数据。2) 模型训练：训练不同规模的视觉Transformer（ViT）骨干网络。3) 性能评估：评估模型在不同任务上的性能，并分析其变化趋势。4) 结果分析：分析实验结果，揭示模型容量、训练计算和数据集大小之间的关系。

关键创新：论文的关键创新在于首次在Peta级商业卫星EO数据上进行遥感基础模型的扩展性研究。通过大规模实验，揭示了遥感基础模型在数据受限的情况下，性能提升的规律。这为遥感基础模型的训练提供了重要的实践指导，并为未来的研究方向提供了新的思路。

关键设计：论文使用了视觉Transformer（ViT）作为基础模型，并探索了不同规模的ViT模型在Peta级数据上的性能表现。具体的技术细节包括：1) 模型结构：使用不同层数和隐藏单元数的ViT模型。2) 训练策略：使用大规模分布式训练，并采用合适的优化算法和学习率策略。3) 数据增强：使用数据增强技术，提高模型的泛化能力。4) 评估指标：使用常用的遥感图像分类和分割指标，评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使在Peta级规模下，遥感基础模型的性能仍然受数据限制，而非模型参数限制。这意味着，在当前阶段，增加数据量比增加模型参数更能有效地提高模型性能。此外，论文还报告了在Peta级训练过程中观察到的成功和失败模式，为未来的研究提供了宝贵的经验。

🎯 应用场景

该研究成果可应用于多种遥感应用场景，例如：土地利用分类、灾害监测、城市规划、农业估产等。通过训练更大规模的遥感基础模型，可以提高这些应用的精度和效率，为决策者提供更准确的信息支持。此外，该研究还可以促进遥感数据与其他模态数据的融合，为多模态机器学习应用提供更强大的支持。

📄 摘要（原文）

We explore the scaling behaviors of artificial intelligence to establish practical techniques for training foundation models on high-resolution electro-optical (EO) datasets that exceed the current state-of-the-art scale by orders of magnitude. Modern multimodal machine learning (ML) applications, such as generative artificial intelligence (GenAI) systems for image captioning, search, and reasoning, depend on robust, domain-specialized encoders for non-text modalities. In natural image domains where internet-scale data is plentiful, well-established scaling laws help optimize the joint scaling of model capacity, training compute, and dataset size. Unfortunately, these relationships are much less well understood in high-value domains like remote sensing (RS). Using over a quadrillion pixels of commercial satellite EO data and MITRE's Federal AI Sandbox, we train progressively larger vision transformer (ViT) backbones, report successes and failure modes observed at peta-scale, and analyze implications for bridging domain gaps across additional RS modalities. We observe that even at this scale, performance is consistent with a data-limited regime rather than a model parameter-limited one. These practical insights are intended to inform data collection strategies, compute budgets, and optimization schedules that advance the future development of frontier scale RS foundation models.

Scaling Remote Sensing Foundation Models: Data Domain Tradeoffs at the Peta-Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理