Foundation AI Models for Aerosol Optical Depth Estimation from PACE Satellite Data
作者: Zahid Hassan Tushar, Sanjay Purushotham
分类: cs.CV
发布日期: 2026-05-01
备注: 5 pages, 4 figures, to appear in 2026 IEEE International Geoscience and Remote Sensing Symposium
💡 一句话要点
提出ViTCG,利用Transformer和通道分组进行气溶胶光学厚度估计,显著降低误差。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 气溶胶光学厚度 高光谱遥感 Vision Transformer 通道分组 卫星数据 大气反演
📋 核心要点
- 传统AOD反演方法依赖复杂模型和大量数据,计算成本高且易受噪声影响,难以充分利用高光谱数据的空间信息。
- ViTCG利用Vision Transformer提取高光谱图像的空间和光谱特征,并通过通道分组减少反演偏差和误差,实现更精确的AOD估计。
- 实验表明,ViTCG在PACE卫星数据上相比现有最佳模型,均方误差降低62%,并能生成空间上更连贯的AOD分布。
📝 摘要(中文)
气溶胶光学厚度(AOD)反演对于地球观测至关重要,支持从空气质量监测到气候研究等应用。传统的基于物理的AOD反演方法将问题定义为逐像素反演,依赖于辐射传输建模、内存密集型查找表和辅助气象数据。虽然最近的数据驱动方法显示出希望,但许多方法未能利用高光谱图像的空间-光谱相干性,导致空间不一致和噪声敏感的反演结果。我们提出了第一个探索用于AOD反演的基础AI模型的研究,并提出了ViTCG,一种具有基于通道分组的空间回归框架的Vision Transformer,可减少反演偏差和误差。ViTCG使用大气顶层高光谱辐射作为输入,并联合建模空间上下文和光谱信息。使用PACE辐射观测进行的验证表明,与最先进的基础模型(包括Prithvi)相比,均方误差降低了62%,并产生了空间相干的AOD场。
🔬 方法详解
问题定义:论文旨在解决利用卫星高光谱数据进行精确气溶胶光学厚度(AOD)反演的问题。现有基于物理模型的方法计算复杂度高,依赖大量辅助数据,且难以充分利用高光谱数据的空间相关性。数据驱动的方法虽然有所进展,但往往忽略空间一致性,导致反演结果噪声大且空间不连贯。
核心思路:论文的核心思路是利用Vision Transformer强大的特征提取能力,同时考虑高光谱数据的空间和光谱信息。通过引入通道分组机制,减少模型对噪声的敏感性,并提高反演结果的空间一致性。这样既能利用数据驱动方法的优势,又能克服其缺点。
技术框架:ViTCG (Vision Transformer with Channel-wise Grouping) 整体框架包括以下几个主要步骤:1) 输入高光谱大气顶层辐射数据;2) 使用Vision Transformer提取空间和光谱特征;3) 通过通道分组模块对特征进行处理,减少噪声影响;4) 使用回归头预测AOD值。整个框架采用端到端的方式进行训练。
关键创新:论文的关键创新在于将Vision Transformer应用于AOD反演,并提出了通道分组机制。Vision Transformer能够有效地捕捉高光谱数据的空间和光谱依赖关系,而通道分组则有助于减少噪声的影响,提高反演结果的鲁棒性和空间一致性。这是首次将Foundation AI模型应用于AOD反演领域。
关键设计:ViTCG的关键设计包括:1) 使用预训练的Vision Transformer作为骨干网络,以加速训练并提高性能;2) 设计通道分组模块,将光谱通道划分为多个组,分别进行处理,以减少噪声的影响;3) 使用均方误差(MSE)作为损失函数,优化模型参数,使预测的AOD值更接近真实值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ViTCG在PACE卫星数据上取得了显著的性能提升。与最先进的基础模型Prithvi相比,ViTCG的均方误差降低了62%,并且能够生成空间上更加连贯的AOD分布。这些结果验证了ViTCG在AOD反演方面的有效性和优越性。
🎯 应用场景
该研究成果可应用于大气环境监测、气候变化研究、空气质量预报等领域。精确的AOD反演结果有助于提高气溶胶辐射效应的评估精度,改进气候模型预测能力,并为空气污染防治提供科学依据。此外,该方法还可推广到其他卫星遥感数据的处理和分析中。
📄 摘要(原文)
Aerosol Optical Depth (AOD) retrieval is essential for Earth observation, supporting applications from air quality monitoring to climate studies. Conventional physics-based AOD retrieval methods formulate the problem as a pixel-wise inversion, relying on radiative transfer modeling, memory-intensive look-up tables, and auxiliary meteorological data. While recent data-driven approaches have shown promise, many fail to exploit the spatial-spectral coherence of hyperspectral imagery, leading to spatially inconsistent and noise-sensitive retrievals. We present the first study exploring Foundation AI models for AOD retrieval and propose ViTCG, a Vision Transformer with Channel-wise Grouping-based spatial regression framework that reduces retrieval bias and error. ViTCG uses hyperspectral top-of-atmosphere radiance as input and jointly models spatial context and spectral information. Validation with PACE radiance observations demonstrates a 62% reduction in mean squared error compared to state-of-the-art foundation models, including Prithvi, and produces spatially coherent AOD fields.