Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
作者: Xuyang Li, Chenyu Li, Danfeng Hong
分类: cs.CV
发布日期: 2025-12-19
备注: Accepted by AAAI2026
💡 一句话要点
提出Any-Optical-Model,解决光学遥感中跨传感器、分辨率的通用性难题。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感基础模型 跨传感器 跨分辨率 波段缺失 自监督学习
📋 核心要点
- 现有遥感基础模型难以处理不同传感器间波段配置和分辨率的差异,限制了其泛化性和实际应用。
- AOM通过频谱独立tokenizer、多尺度自适应patch嵌入和多尺度语义对齐机制,实现对任意波段、传感器和分辨率的适应。
- 实验表明,AOM在波段缺失、跨传感器和跨分辨率等场景下,均取得了优于现有技术水平的性能。
📝 摘要(中文)
光学卫星凭借其多样的波段布局和地面采样距离,为生态系统监测到应急响应等任务提供了不可或缺的证据。然而,不同光学传感器在波段组成和空间分辨率上的显著差异,对现有的遥感基础模型(RSFM)提出了重大挑战。这些模型通常在固定的波段配置和分辨率上进行预训练,使其容易受到涉及缺失波段、跨传感器融合和未见空间尺度的真实场景的影响,从而限制了其泛化能力和实际部署。为了解决这些限制,我们提出了Any Optical Model (AOM),一个通用RSFM,专门设计用于适应任意波段组成、传感器类型和分辨率尺度。为了即使在波段缺失或新引入时也能保持独特的频谱特征,AOM引入了一种频谱独立的tokenizer,它为每个通道分配一个专用的波段嵌入,从而能够显式地编码频谱身份。为了有效地捕获从亚米级到百米级图像的纹理和上下文模式,我们设计了一种多尺度自适应patch嵌入机制,该机制动态地调节感受野。此外,为了保持跨不同分辨率的全局语义一致性,AOM结合了一种多尺度语义对齐机制,以及一种通道级的自监督掩码和重建预训练策略,该策略联合建模了光谱-空间关系。在包括来自Sentinel-2、Landsat和HLS的数据集在内的10多个公共数据集上进行的大量实验表明,AOM在诸如波段缺失、跨传感器和跨分辨率设置等具有挑战性的条件下,始终如一地实现了最先进(SOTA)的性能。
🔬 方法详解
问题定义:现有遥感基础模型通常针对特定传感器和分辨率进行预训练,难以适应实际应用中常见的波段缺失、跨传感器数据融合以及不同分辨率图像的处理。这导致模型泛化能力差,限制了其在实际场景中的应用。
核心思路:AOM的核心思路是设计一个通用的遥感基础模型,使其能够处理任意波段组成、传感器类型和分辨率尺度的数据。通过显式地编码波段身份、动态调节感受野以及保持全局语义一致性,AOM能够有效地提取和利用不同遥感数据的特征。
技术框架:AOM的整体框架包括以下几个主要模块:1) 频谱独立Tokenizer:为每个通道分配一个专用的波段嵌入,显式编码频谱身份。2) 多尺度自适应Patch嵌入:动态调节感受野,捕获不同分辨率图像的纹理和上下文模式。3) 多尺度语义对齐:保持跨不同分辨率的全局语义一致性。4) 通道级自监督掩码和重建预训练:联合建模光谱-空间关系。
关键创新:AOM最重要的技术创新在于其通用性设计,能够处理任意波段组成、传感器类型和分辨率尺度的遥感数据。与现有方法相比,AOM不再依赖于特定的传感器和分辨率,从而具有更强的泛化能力和实际应用价值。频谱独立Tokenizer和多尺度自适应Patch嵌入是实现这一目标的关键。
关键设计:频谱独立Tokenizer的设计允许模型区分不同的波段,即使在波段缺失的情况下也能保持性能。多尺度自适应Patch嵌入通过动态调整感受野,适应不同分辨率的图像。通道级自监督掩码和重建预训练策略通过掩盖部分通道并重建,促使模型学习光谱和空间之间的关系。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
AOM在10多个公共数据集上进行了广泛的实验,包括来自Sentinel-2、Landsat和HLS的数据集。实验结果表明,AOM在波段缺失、跨传感器和跨分辨率等具有挑战性的条件下,始终如一地实现了最先进的性能。具体性能数据和对比基线在论文中有详细展示,证明了AOM的有效性和优越性。
🎯 应用场景
AOM具有广泛的应用前景,可用于生态环境监测、灾害应急响应、城市规划、农业估产等领域。其通用性设计使其能够处理来自不同传感器和分辨率的数据,从而为遥感数据的融合和分析提供了强大的工具。未来,AOM有望成为遥感领域的基础模型,推动遥感技术的进一步发展。
📄 摘要(原文)
Optical satellites, with their diverse band layouts and ground sampling distances, supply indispensable evidence for tasks ranging from ecosystem surveillance to emergency response. However, significant discrepancies in band composition and spatial resolution across different optical sensors present major challenges for existing Remote Sensing Foundation Models (RSFMs). These models are typically pretrained on fixed band configurations and resolutions, making them vulnerable to real world scenarios involving missing bands, cross sensor fusion, and unseen spatial scales, thereby limiting their generalization and practical deployment. To address these limitations, we propose Any Optical Model (AOM), a universal RSFM explicitly designed to accommodate arbitrary band compositions, sensor types, and resolution scales. To preserve distinctive spectral characteristics even when bands are missing or newly introduced, AOM introduces a spectrum-independent tokenizer that assigns each channel a dedicated band embedding, enabling explicit encoding of spectral identity. To effectively capture texture and contextual patterns from sub-meter to hundred-meter imagery, we design a multi-scale adaptive patch embedding mechanism that dynamically modulates the receptive field. Furthermore, to maintain global semantic consistency across varying resolutions, AOM incorporates a multi-scale semantic alignment mechanism alongside a channel-wise self-supervised masking and reconstruction pretraining strategy that jointly models spectral-spatial relationships. Extensive experiments on over 10 public datasets, including those from Sentinel-2, Landsat, and HLS, demonstrate that AOM consistently achieves state-of-the-art (SOTA) performance under challenging conditions such as band missing, cross sensor, and cross resolution settings.