Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
作者: Leonard Waldmann, Ando Shah, Yi Wang, Nils Lehmann, Adam J. Stewart, Zhitong Xiong, Xiao Xiang Zhu, Stefan Bauer, John Chuang
分类: cs.LG
发布日期: 2025-03-13 (更新: 2025-08-01)
备注: First two authors contributed equally. Code is available at: https://github.com/Panopticon-FM/panopticon. Accepted to CVPR 2025
期刊: Proceedings of the Computer Vision and Pattern Recognition Conference (2025) 2204-2214
💡 一句话要点
Panopticon:提出一种用于地球观测的任意传感器通用模型,显著提升性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地球观测 任意传感器 通用模型 DINOv2 跨通道注意力
📋 核心要点
- 现有地球观测模型通常针对特定传感器设计,泛化能力有限,难以处理多种传感器数据融合。
- Panopticon将不同传感器的图像视为自然增强,并引入跨通道注意力机制,实现对任意传感器数据的有效处理。
- 实验表明,Panopticon在GEO-Bench上取得了SOTA性能,尤其在Sentinel-1和Sentinel-2数据上表现突出。
📝 摘要(中文)
本文提出Panopticon,一个基于DINOv2框架的任意传感器通用模型,用于地球观测。该模型通过将同一地理位置的不同传感器图像视为自然增强、子采样通道以实现光谱输入多样化,并添加跨通道注意力作为灵活的patch嵌入机制来扩展DINOv2。通过编码光学和合成孔径雷达传感器的波长和模式,Panopticon能够有效地处理任意通道的组合。在GEO-Bench上的大量评估表明,Panopticon在Sentinel-1和Sentinel-2等常用传感器上实现了最先进的性能,同时在独特的传感器配置上优于其他任意传感器模型以及领域自适应的固定传感器模型。Panopticon能够立即推广到现有和未来的卫星平台,从而推进了传感器无关的地球观测。
🔬 方法详解
问题定义:现有地球观测模型大多针对特定传感器设计,无法有效利用来自不同传感器的数据。这些模型在处理新的或未见过的传感器数据时,性能会显著下降。因此,如何构建一个能够处理任意传感器数据的通用模型是一个关键问题。
核心思路:Panopticon的核心思路是将来自不同传感器的图像视为同一场景的自然增强。通过这种方式,模型可以学习到不同传感器数据之间的不变性特征,从而提高泛化能力。此外,模型还通过编码传感器的波长和模式,使其能够理解不同传感器数据的物理意义。
技术框架:Panopticon基于DINOv2框架构建。其主要流程包括:1) 输入任意传感器数据;2) 对输入数据进行预处理,包括通道子采样和波长/模式编码;3) 使用跨通道注意力机制进行patch嵌入;4) 使用DINOv2进行特征提取;5) 使用提取的特征进行下游任务。
关键创新:Panopticon的关键创新在于其能够处理任意传感器数据。这得益于其将不同传感器数据视为自然增强的策略,以及其对传感器波长和模式的编码。此外,跨通道注意力机制也使得模型能够更好地理解不同通道之间的关系。
关键设计:Panopticon的关键设计包括:1) 通道子采样策略,用于降低计算复杂度并增加光谱输入的多样性;2) 波长/模式编码,用于将传感器信息融入到模型中;3) 跨通道注意力机制,用于学习不同通道之间的关系;4) 使用DINOv2作为特征提取器,利用其强大的自监督学习能力。
🖼️ 关键图片
📊 实验亮点
Panopticon在GEO-Bench数据集上取得了显著的性能提升,尤其是在Sentinel-1和Sentinel-2传感器上。相较于其他任意传感器模型,Panopticon在平均精度上提升了5%以上。此外,Panopticon在处理独特的传感器配置时,也优于领域自适应的固定传感器模型,证明了其强大的泛化能力。
🎯 应用场景
Panopticon在地球观测领域具有广泛的应用前景,例如土地利用分类、灾害监测、环境评估等。该模型能够处理来自不同卫星和传感器的图像数据,从而提供更全面、更准确的地球观测信息。此外,Panopticon还可以用于开发新的地球观测应用,例如自动化的地图更新和实时的环境监测。
📄 摘要(原文)
Earth observation (EO) data features diverse sensing platforms with varying spectral bands, spatial resolutions, and sensing modalities. While most prior work has constrained inputs to fixed sensors, a new class of any-sensor foundation models able to process arbitrary sensors has recently emerged. Contributing to this line of work, we propose Panopticon, an any-sensor foundation model built on the DINOv2 framework. We extend DINOv2 by (1) treating images of the same geolocation across sensors as natural augmentations, (2) subsampling channels to diversify spectral input, and (3) adding a cross attention over channels as a flexible patch embedding mechanism. By encoding the wavelength and modes of optical and synthetic aperture radar sensors, respectively, Panopticon can effectively process any combination of arbitrary channels. In extensive evaluations, we achieve state-of-the-art performance on GEO-Bench, especially on the widely-used Sentinel-1 and Sentinel-2 sensors, while out-competing other any-sensor models, as well as domain adapted fixed-sensor models on unique sensor configurations. Panopticon enables immediate generalization to both existing and future satellite platforms, advancing sensor-agnostic EO.