From Spaceborne to Airborne: SAR Image Synthesis Using Foundation Models for Multi-Scale Adaptation

📄 arXiv: 2505.03844v2 📥 PDF

作者: Solene Debuysere, Nicolas Trouve, Nathan Letheule, Olivier Leveque, Elise Colin

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-05-05 (更新: 2025-05-11)


💡 一句话要点

利用空间条件扩散模型,实现星载SAR图像到机载SAR图像的多尺度合成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成孔径雷达 SAR图像 图像合成 扩散模型 空间条件 多尺度适应 遥感图像 数据增强

📋 核心要点

  1. 高分辨率机载SAR图像获取成本高昂,且缺乏高质量的SAR文本-图像数据集,限制了基础模型在遥感领域的应用。
  2. 利用预训练的潜在扩散模型,结合空间条件技术,将星载SAR图像转换为机载SAR图像,实现多尺度适应。
  3. 该方法能够有效提升物理模拟器生成的SAR图像的真实性,为SAR成像技术的发展提供了一种新的AI驱动方法。

📝 摘要(中文)

近年来,合成孔径雷达(SAR)卫星图像的可用性显著提高,商业数据集也日益丰富。然而,机载配置下高分辨率SAR图像的获取仍然成本高昂且受限。因此,缺乏开源、良好标注或易于利用的SAR文本-图像数据集阻碍了现有基础模型在遥感应用中的使用。在此背景下,合成图像生成是一种有前景的解决方案,可以扩充这些稀缺数据,从而实现更广泛的应用。我们利用ONERA 15年来从采集活动中获得的大量机载数据,创建了一个包含11万张SAR图像的综合训练数据集,以利用一个35亿参数的预训练潜在扩散模型。本文提出了一种新方法,利用基础模型中的空间条件技术将卫星SAR图像转换为机载SAR表示。此外,我们还证明了我们的流程能够有效地弥合ONERA基于物理的模拟器EMPRISE生成的模拟图像的真实性。我们的方法探索了人工智能在推进SAR成像技术中的一个关键应用。据我们所知,我们是第一个在文献中引入这种方法的人。

🔬 方法详解

问题定义:论文旨在解决SAR图像领域中,缺乏高质量机载SAR图像数据的问题。现有方法难以有效利用已有的星载SAR图像数据,并且基于物理的SAR图像模拟器生成的图像真实性不足,限制了其在实际应用中的价值。

核心思路:论文的核心思路是利用预训练的潜在扩散模型,通过空间条件控制,将易于获取的星载SAR图像转换为更具价值的机载SAR图像。这种方法能够有效利用已有的星载数据,并提升合成图像的真实性。

技术框架:整体框架包含以下几个主要步骤:1) 利用ONERA的大量机载SAR数据构建训练数据集;2) 使用预训练的潜在扩散模型作为基础;3) 引入空间条件模块,控制生成图像的空间特征,实现星载到机载的转换;4) 利用该方法提升物理模拟器生成的SAR图像的真实性。

关键创新:论文的关键创新在于利用空间条件控制的扩散模型,实现了星载SAR图像到机载SAR图像的转换。这种方法能够有效利用已有的星载数据,并提升合成图像的真实性,为SAR图像领域的数据增强提供了一种新的思路。

关键设计:论文使用了35亿参数的预训练潜在扩散模型,并针对SAR图像的特点,设计了空间条件模块。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文利用ONERA的大量机载SAR数据,训练了一个35亿参数的预训练潜在扩散模型,并成功实现了星载SAR图像到机载SAR图像的转换。该方法能够有效提升物理模拟器生成的SAR图像的真实性,为SAR图像领域的数据增强提供了一种新的思路。具体的性能数据和对比基线在摘要中未提及,属于未知信息。

🎯 应用场景

该研究成果可应用于遥感图像分析、目标检测、变化检测等领域。通过合成高质量的机载SAR图像,可以有效解决数据稀缺问题,提升相关算法的性能。此外,该方法还可以用于提升SAR图像模拟器的真实性,为SAR成像技术的发展提供支持。未来,该技术有望在城市规划、灾害监测、环境评估等领域发挥重要作用。

📄 摘要(原文)

The availability of Synthetic Aperture Radar (SAR) satellite imagery has increased considerably in recent years, with datasets commercially available. However, the acquisition of high-resolution SAR images in airborne configurations, remains costly and limited. Thus, the lack of open source, well-labeled, or easily exploitable SAR text-image datasets is a barrier to the use of existing foundation models in remote sensing applications. In this context, synthetic image generation is a promising solution to augment this scarce data, enabling a broader range of applications. Leveraging over 15 years of ONERA's extensive archival airborn data from acquisition campaigns, we created a comprehensive training dataset of 110 thousands SAR images to exploit a 3.5 billion parameters pre-trained latent diffusion model \cite{Baqu2019SethiR}. In this work, we present a novel approach utilizing spatial conditioning techniques within a foundation model to transform satellite SAR imagery into airborne SAR representations. Additionally, we demonstrate that our pipeline is effective for bridging the realism of simulated images generated by ONERA's physics-based simulator EMPRISE \cite{empriseem_ai_images}. Our method explores a key application of AI in advancing SAR imaging technology. To the best of our knowledge, we are the first to introduce this approach in the literature.