Multimodal Diffusion Bridge with Attention-Based SAR Fusion for Satellite Image Cloud Removal

📄 arXiv: 2504.03607v1 📥 PDF

作者: Yuyang Hu, Suhas Lohit, Ulugbek S. Kamilov, Tim K. Marks

分类: cs.CV

发布日期: 2025-04-04


💡 一句话要点

提出DB-CR:一种基于注意力SAR融合的多模态扩散桥卫星图像去云方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 卫星图像去云 扩散模型 扩散桥 多模态融合 SAR图像 光学图像 深度学习 遥感图像处理

📋 核心要点

  1. 现有去云方法在有效融合SAR和光学数据方面存在不足,且传统扩散模型从高斯噪声采样导致性能受限。
  2. DB-CR通过扩散桥直接连接多云和无云图像分布,并设计双分支网络融合SAR和光学图像特征。
  3. 实验表明,DB-CR在SEN12MS-CR数据集上取得了SOTA结果,并在计算效率方面表现良好。

📝 摘要(中文)

本文提出了一种用于卫星图像去云的扩散桥方法,称为DB-CR,旨在解决光学卫星图像云去除的挑战。该方法通过与合成孔径雷达(SAR)图像融合,利用扩散模型从无云分布中采样,从而实现高质量的估计。DB-CR直接桥接多云和无云图像分布,避免了传统扩散模型从纯高斯噪声开始采样导致的次优性能。此外,论文还提出了一种新颖的多模态扩散桥架构,该架构具有用于多模态图像恢复的双分支骨干网络,并结合了高效的骨干网络和专用的跨模态融合块,以有效地提取和融合SAR和光学图像的特征。在SEN12MS-CR数据集上的评估表明,DB-CR实现了最先进的结果,同时保持了计算效率。

🔬 方法详解

问题定义:论文旨在解决光学卫星图像中云层遮挡的问题。现有方法,特别是基于传统扩散模型的方法,存在两个主要痛点:一是SAR和光学数据融合效果不佳;二是扩散模型从纯高斯噪声开始采样,导致采样轨迹复杂,性能受限。

核心思路:论文的核心思路是将云去除问题建模为一个扩散桥问题,即直接在多云图像和无云图像的分布之间建立桥梁,避免从纯噪声开始采样。同时,设计一个专门的多模态架构,有效融合SAR和光学图像的信息。

技术框架:DB-CR的整体架构是一个双分支的扩散桥模型。一个分支处理光学图像,另一个分支处理SAR图像。两个分支都包含一个编码器-解码器结构。在编码器和解码器之间,引入了跨模态融合块,用于融合SAR和光学图像的特征。整个流程包括前向扩散过程和反向采样过程,前向过程逐渐将图像转换为噪声,反向过程则从多云图像分布出发,逐步生成无云图像。

关键创新:论文的关键创新在于:1) 将云去除问题建模为扩散桥问题,避免了从纯噪声开始采样;2) 提出了一个专门的多模态扩散桥架构,包含双分支骨干网络和跨模态融合块,能够有效融合SAR和光学图像的特征。与现有方法相比,DB-CR能够更有效地利用SAR信息,并生成更高质量的去云图像。

关键设计:DB-CR的关键设计包括:1) 双分支骨干网络,分别处理光学和SAR数据;2) 注意力机制的跨模态融合块,用于自适应地融合不同模态的特征;3) 损失函数的设计,可能包括重建损失、感知损失等,以保证生成图像的质量和真实性。(具体损失函数细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DB-CR在SEN12MS-CR数据集上取得了state-of-the-art的结果,证明了其有效性。具体性能数据(如PSNR、SSIM等)和与其它基线方法的对比结果(提升幅度)在论文中进行了详细展示。(具体数值未知,需查阅原文)

🎯 应用场景

该研究成果可广泛应用于遥感图像处理领域,例如环境监测、灾害评估、土地利用规划等。通过去除云层遮挡,可以提高卫星图像的可用性,为相关应用提供更准确、更可靠的数据支持。未来,该技术有望应用于实时卫星图像处理系统,为决策者提供及时的信息。

📄 摘要(原文)

Deep learning has achieved some success in addressing the challenge of cloud removal in optical satellite images, by fusing with synthetic aperture radar (SAR) images. Recently, diffusion models have emerged as powerful tools for cloud removal, delivering higher-quality estimation by sampling from cloud-free distributions, compared to earlier methods. However, diffusion models initiate sampling from pure Gaussian noise, which complicates the sampling trajectory and results in suboptimal performance. Also, current methods fall short in effectively fusing SAR and optical data. To address these limitations, we propose Diffusion Bridges for Cloud Removal, DB-CR, which directly bridges between the cloudy and cloud-free image distributions. In addition, we propose a novel multimodal diffusion bridge architecture with a two-branch backbone for multimodal image restoration, incorporating an efficient backbone and dedicated cross-modality fusion blocks to effectively extract and fuse features from synthetic aperture radar (SAR) and optical images. By formulating cloud removal as a diffusion-bridge problem and leveraging this tailored architecture, DB-CR achieves high-fidelity results while being computationally efficient. We evaluated DB-CR on the SEN12MS-CR cloud-removal dataset, demonstrating that it achieves state-of-the-art results.