Foundation AI Models for Aerosol Optical Depth Estimation from PACE Satellite Data

作者: Zahid Hassan Tushar, Sanjay Purushotham

分类: cs.CV

发布日期: 2026-05-01

备注: 5 pages, 4 figures, to appear in 2026 IEEE International Geoscience and Remote Sensing Symposium

💡 一句话要点

提出ViTCG，利用Transformer和通道分组进行气溶胶光学厚度估计，显著降低误差。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 气溶胶光学厚度 高光谱遥感 Vision Transformer 通道分组 卫星数据 大气反演

📋 核心要点

传统AOD反演方法依赖复杂模型和大量数据，计算成本高且易受噪声影响，难以充分利用高光谱数据的空间信息。
ViTCG利用Vision Transformer提取高光谱图像的空间和光谱特征，并通过通道分组减少反演偏差和误差，实现更精确的AOD估计。
实验表明，ViTCG在PACE卫星数据上相比现有最佳模型，均方误差降低62%，并能生成空间上更连贯的AOD分布。

📝 摘要（中文）

气溶胶光学厚度(AOD)反演对于地球观测至关重要，支持从空气质量监测到气候研究等应用。传统的基于物理的AOD反演方法将问题定义为逐像素反演，依赖于辐射传输建模、内存密集型查找表和辅助气象数据。虽然最近的数据驱动方法显示出希望，但许多方法未能利用高光谱图像的空间-光谱相干性，导致空间不一致和噪声敏感的反演结果。我们提出了第一个探索用于AOD反演的基础AI模型的研究，并提出了ViTCG，一种具有基于通道分组的空间回归框架的Vision Transformer，可减少反演偏差和误差。ViTCG使用大气顶层高光谱辐射作为输入，并联合建模空间上下文和光谱信息。使用PACE辐射观测进行的验证表明，与最先进的基础模型（包括Prithvi）相比，均方误差降低了62%，并产生了空间相干的AOD场。

🔬 方法详解

问题定义：论文旨在解决利用卫星高光谱数据进行精确气溶胶光学厚度（AOD）反演的问题。现有基于物理模型的方法计算复杂度高，依赖大量辅助数据，且难以充分利用高光谱数据的空间相关性。数据驱动的方法虽然有所进展，但往往忽略空间一致性，导致反演结果噪声大且空间不连贯。

核心思路：论文的核心思路是利用Vision Transformer强大的特征提取能力，同时考虑高光谱数据的空间和光谱信息。通过引入通道分组机制，减少模型对噪声的敏感性，并提高反演结果的空间一致性。这样既能利用数据驱动方法的优势，又能克服其缺点。

技术框架：ViTCG (Vision Transformer with Channel-wise Grouping) 整体框架包括以下几个主要步骤：1) 输入高光谱大气顶层辐射数据；2) 使用Vision Transformer提取空间和光谱特征；3) 通过通道分组模块对特征进行处理，减少噪声影响；4) 使用回归头预测AOD值。整个框架采用端到端的方式进行训练。

关键创新：论文的关键创新在于将Vision Transformer应用于AOD反演，并提出了通道分组机制。Vision Transformer能够有效地捕捉高光谱数据的空间和光谱依赖关系，而通道分组则有助于减少噪声的影响，提高反演结果的鲁棒性和空间一致性。这是首次将Foundation AI模型应用于AOD反演领域。

关键设计：ViTCG的关键设计包括：1) 使用预训练的Vision Transformer作为骨干网络，以加速训练并提高性能；2) 设计通道分组模块，将光谱通道划分为多个组，分别进行处理，以减少噪声的影响；3) 使用均方误差（MSE）作为损失函数，优化模型参数，使预测的AOD值更接近真实值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ViTCG在PACE卫星数据上取得了显著的性能提升。与最先进的基础模型Prithvi相比，ViTCG的均方误差降低了62%，并且能够生成空间上更加连贯的AOD分布。这些结果验证了ViTCG在AOD反演方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于大气环境监测、气候变化研究、空气质量预报等领域。精确的AOD反演结果有助于提高气溶胶辐射效应的评估精度，改进气候模型预测能力，并为空气污染防治提供科学依据。此外，该方法还可推广到其他卫星遥感数据的处理和分析中。

📄 摘要（原文）

Aerosol Optical Depth (AOD) retrieval is essential for Earth observation, supporting applications from air quality monitoring to climate studies. Conventional physics-based AOD retrieval methods formulate the problem as a pixel-wise inversion, relying on radiative transfer modeling, memory-intensive look-up tables, and auxiliary meteorological data. While recent data-driven approaches have shown promise, many fail to exploit the spatial-spectral coherence of hyperspectral imagery, leading to spatially inconsistent and noise-sensitive retrievals. We present the first study exploring Foundation AI models for AOD retrieval and propose ViTCG, a Vision Transformer with Channel-wise Grouping-based spatial regression framework that reduces retrieval bias and error. ViTCG uses hyperspectral top-of-atmosphere radiance as input and jointly models spatial context and spectral information. Validation with PACE radiance observations demonstrates a 62% reduction in mean squared error compared to state-of-the-art foundation models, including Prithvi, and produces spatially coherent AOD fields.

Foundation AI Models for Aerosol Optical Depth Estimation from PACE Satellite Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理