CerraData-4MM: A multimodal benchmark dataset on Cerrado for land use and land cover classification

📄 arXiv: 2502.00083v1 📥 PDF

作者: Mateus de Souza Miranda, Ronny Hänsch, Valdivino Alexandre de Santiago Júnior, Thales Sehn Körting, Erison Carlos dos Santos Monteiro

分类: cs.CV, eess.IV

发布日期: 2025-01-31

备注: 9 pages, 13 Figures, 3 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出CerraData-4MM多模态数据集,用于塞拉多土地利用和土地覆盖分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 土地利用分类 土地覆盖分类 多模态数据 遥感图像 深度学习

📋 核心要点

  1. 现有土地利用和土地覆盖分类方法在塞拉多地区面临类别不平衡和视觉相似类别的挑战。
  2. 论文提出CerraData-4MM多模态数据集,结合SAR和MSI数据,旨在为该领域提供更有效的基准。
  3. 实验表明,Vision Transformer模型在CerraData-4MM数据集上表现优于U-Net,但少数类别仍是挑战。

📝 摘要(中文)

塞拉多地区面临日益增长的环境压力,需要精确的土地利用和土地覆盖(LULC)制图,但存在类别不平衡和视觉相似类别等挑战。为了解决这个问题,我们提出了CerraData-4MM,这是一个多模态数据集,结合了Sentinel-1合成孔径雷达(SAR)和Sentinel-2多光谱图像(MSI),具有10米的空间分辨率。该数据集包括两个分层分类级别,分别为7个和14个类别,重点关注多样化的Bico do Papagaio生态区。我们通过评估标准的U-Net和一个更复杂的Vision Transformer(ViT)模型,突出了CerraData-4MM在基准测试高级语义分割技术方面的能力。ViT在多模态场景中表现出优越的性能,在第一层级实现了最高的宏F1分数为57.60%,平均交并比(mIoU)为49.05%。两种模型都在少数类别上表现不佳,尤其是在第二层级,U-Net的性能下降到F1分数为18.16%。类别平衡改善了代表性不足类别的表示,但降低了整体准确性,突出了加权训练中的权衡。CerraData-4MM为推进深度学习模型以处理类别不平衡和多模态数据融合提供了一个具有挑战性的基准。代码、训练模型和数据可在https://github.com/ai4luc/CerraData-4MM公开获取。

🔬 方法详解

问题定义:论文旨在解决塞拉多地区土地利用和土地覆盖(LULC)分类问题。现有方法在处理该地区数据时,面临类别不平衡、视觉相似类别难以区分等问题,导致分类精度不高。缺乏高质量、多模态的基准数据集也是一个重要痛点。

核心思路:论文的核心思路是构建一个高质量的多模态数据集CerraData-4MM,该数据集包含Sentinel-1 SAR和Sentinel-2 MSI数据,并提供两个层级的分类标签。通过提供这样一个数据集,可以促进深度学习模型在该领域的应用和发展,并为解决类别不平衡等问题提供基准。

技术框架:该研究主要围绕CerraData-4MM数据集的构建和使用展开。首先,收集Sentinel-1和Sentinel-2数据,并进行预处理。然后,对数据进行标注,构建包含7个和14个类别的两个层级分类体系。最后,使用U-Net和Vision Transformer模型在数据集上进行训练和评估,作为基准测试。

关键创新:该论文的主要创新在于构建了CerraData-4MM数据集,这是一个高质量、多模态的LULC数据集,特别针对塞拉多地区。该数据集的公开,填补了该领域缺乏高质量基准数据集的空白,为后续研究提供了便利。

关键设计:CerraData-4MM数据集包含Sentinel-1 SAR和Sentinel-2 MSI数据,空间分辨率为10米。数据集包含两个层级的分类标签,分别为7个和14个类别,涵盖了塞拉多地区主要的土地利用和土地覆盖类型。论文使用宏F1分数和平均交并比(mIoU)作为评估指标,并分析了类别平衡对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Vision Transformer (ViT) 模型在 CerraData-4MM 数据集上表现优于 U-Net 模型,在第一层级分类中,ViT 达到了 57.60% 的宏 F1 分数和 49.05% 的 mIoU。然而,两种模型在处理少数类别时都面临挑战,尤其是在第二层级分类中,U-Net 的 F1 分数下降到 18.16%。类别平衡策略虽然改善了少数类别的表现,但降低了整体准确率。

🎯 应用场景

该研究成果可应用于塞拉多地区的土地资源管理、环境保护和可持续发展规划。通过提高土地利用和土地覆盖分类的精度,可以更好地监测土地利用变化、评估生态系统服务功能,并为决策者提供科学依据。该数据集和基准测试结果也有助于推动遥感图像处理和深度学习技术的发展。

📄 摘要(原文)

The Cerrado faces increasing environmental pressures, necessitating accurate land use and land cover (LULC) mapping despite challenges such as class imbalance and visually similar categories. To address this, we present CerraData-4MM, a multimodal dataset combining Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Imagery (MSI) with 10m spatial resolution. The dataset includes two hierarchical classification levels with 7 and 14 classes, respectively, focusing on the diverse Bico do Papagaio ecoregion. We highlight CerraData-4MM's capacity to benchmark advanced semantic segmentation techniques by evaluating a standard U-Net and a more sophisticated Vision Transformer (ViT) model. The ViT achieves superior performance in multimodal scenarios, with the highest macro F1-score of 57.60% and a mean Intersection over Union (mIoU) of 49.05% at the first hierarchical level. Both models struggle with minority classes, particularly at the second hierarchical level, where U-Net's performance drops to an F1-score of 18.16%. Class balancing improves representation for underrepresented classes but reduces overall accuracy, underscoring the trade-off in weighted training. CerraData-4MM offers a challenging benchmark for advancing deep learning models to handle class imbalance and multimodal data fusion. Code, trained models, and data are publicly available at https://github.com/ai4luc/CerraData-4MM.