CBEN -- A Multimodal Machine Learning Dataset for Cloud Robust Remote Sensing Image Understanding

作者: Marco Stricker, Masakazu Iwamura, Koichi Kise

分类: cs.CV

发布日期: 2026-02-13

备注: This work has been submitted to the IEEE Transactions on Geoscience & Remote Sensing for possible publication

🔗 代码/项目: GITHUB

💡 一句话要点

提出CBEN数据集，用于提升云遮挡下遥感图像理解的多模态机器学习鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感图像理解 多模态学习 云鲁棒性 数据集构建 光学雷达融合

📋 核心要点

现有遥感图像分析方法通常排除多云图像，导致在时间敏感应用中失效，去云预处理也存在伪影问题。
论文提出CloudyBigEarthNet (CBEN)数据集，包含配对的光学和雷达图像，用于训练和评估云鲁棒模型。
实验表明，在CBEN数据集上训练的模型，在多云图像上的性能显著提升，相对改进达17.2-28.7个百分点。

📝 摘要（中文）

云是扭曲光学卫星图像的常见现象，对遥感构成挑战。然而，文献中通常进行无云分析，将多云图像从机器学习数据集和方法中排除。这种方法不适用于时间敏感的应用，例如自然灾害期间。一个可能的解决方案是应用去云作为预处理步骤，以确保无云解决方案在这种条件下不会失效。但是，去云方法仍在积极研究中，并且存在诸如生成视觉伪影之类的缺点。因此，期望开发受多云天气影响较小的云鲁棒方法。云鲁棒方法可以通过将光学数据与雷达（一种不受云影响的模态）相结合来实现。虽然许多机器学习数据集结合了光学和雷达数据，但大多数研究人员排除了多云图像。我们将这种从机器学习训练和评估中排除的做法视为一种限制，它降低了对多云场景的适用性。为了研究这一点，我们组装了一个名为CloudyBigEarthNet（CBEN）的数据集，该数据集包含带有云遮挡的配对光学和雷达图像，用于训练和评估。使用平均精度（AP）作为评估指标，我们表明，在晴空光学和雷达图像上训练的最新方法在多云图像上评估时，性能下降了23-33个百分点。然后，我们在训练期间将这些方法调整为多云光学数据，与原始方法相比，在多云测试用例中实现了17.2-28.7个百分点的相对改进。代码和数据集可在https://github.com/mstricker13/CBEN公开获得。

🔬 方法详解

问题定义：遥感图像分析在多云天气下性能显著下降，现有方法依赖于无云图像或有损的去云预处理。这限制了其在自然灾害等时间敏感场景中的应用。因此，需要开发对云遮挡具有鲁棒性的遥感图像理解方法。

核心思路：利用雷达数据不受云影响的特性，结合光学和雷达多模态信息，构建云鲁棒的遥感图像理解模型。关键在于提供一个包含云遮挡的光学和雷达图像对的数据集，用于训练和评估。

技术框架：论文构建了CloudyBigEarthNet (CBEN)数据集，包含配对的光学和雷达图像，并带有云遮挡。研究人员使用该数据集训练现有的多模态遥感图像理解模型，并在多云图像上进行评估。通过在训练过程中引入多云数据，提升模型在多云场景下的性能。

关键创新：CBEN数据集的构建是核心创新。它首次将云遮挡作为遥感图像理解研究中的一个重要因素，并提供了一个用于训练和评估云鲁棒模型的基准。这改变了以往遥感图像分析中忽略或去除云遮挡的传统做法。

关键设计：CBEN数据集包含配对的光学和雷达图像，这些图像具有不同程度的云遮挡。数据集的构建过程需要仔细选择图像，并确保光学和雷达图像在空间和时间上对齐。评估指标采用平均精度（AP），用于衡量模型在多云图像上的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在晴空光学和雷达图像上训练的现有方法在多云图像上评估时，性能下降了23-33个百分点。通过在CBEN数据集上进行训练，并将模型调整为多云光学数据，在多云测试用例中实现了17.2-28.7个百分点的相对改进。这证明了CBEN数据集在提升云鲁棒遥感图像理解方面的有效性。

🎯 应用场景

该研究成果可应用于自然灾害监测、农业资源评估、环境变化分析等领域。通过提升云遮挡下的遥感图像理解能力，可以更及时、准确地获取地表信息，为决策提供支持。未来，可以进一步研究更有效的多模态融合方法，提升云鲁棒模型的性能。

📄 摘要（原文）

Clouds are a common phenomenon that distorts optical satellite imagery, which poses a challenge for remote sensing. However, in the literature cloudless analysis is often performed where cloudy images are excluded from machine learning datasets and methods. Such an approach cannot be applied to time sensitive applications, e.g., during natural disasters. A possible solution is to apply cloud removal as a preprocessing step to ensure that cloudfree solutions are not failing under such conditions. But cloud removal methods are still actively researched and suffer from drawbacks, such as generated visual artifacts. Therefore, it is desirable to develop cloud robust methods that are less affected by cloudy weather. Cloud robust methods can be achieved by combining optical data with radar, a modality unaffected by clouds. While many datasets for machine learning combine optical and radar data, most researchers exclude cloudy images. We identify this exclusion from machine learning training and evaluation as a limitation that reduces applicability to cloudy scenarios. To investigate this, we assembled a dataset, named CloudyBigEarthNet (CBEN), of paired optical and radar images with cloud occlusion for training and evaluation. Using average precision (AP) as the evaluation metric, we show that state-of-the-art methods trained on combined clear-sky optical and radar imagery suffer performance drops of 23-33 percentage points when evaluated on cloudy images. We then adapt these methods to cloudy optical data during training, achieving relative improvement of 17.2-28.7 percentage points on cloudy test cases compared with the original approaches. Code and dataset are publicly available at: https://github.com/mstricker13/CBEN

CBEN -- A Multimodal Machine Learning Dataset for Cloud Robust Remote Sensing Image Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理