An Open Benchmark Dataset for GeoAI Foundation Models for Oil Palm Mapping in Indonesia

📄 arXiv: 2509.08303v1 📥 PDF

作者: M. Warizmi Wafiq, Peter Cutter, Ate Poortinga, Daniel Marc G. dela Torre, Karis Tenneson, Vanna Teck, Enikoe Bihari, Chanarun Saisaward, Weraphong Suaruang, Andrea McMahon, Andi Vika Faradiba Muin, Karno B. Batiran, Chairil A, Nurul Qomar, Arya Arismaya Metananda, David Ganz, David Saah

分类: cs.CV

发布日期: 2025-09-10


💡 一句话要点

发布印尼油棕种植区GeoAI基础模型开放基准数据集,助力森林砍伐监测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 油棕种植园 土地覆盖 遥感 地理空间数据 深度学习 森林砍伐 印尼

📋 核心要点

  1. 印尼的油棕种植是森林砍伐的主要原因之一,需要详细可靠的地图绘制来支持可持续发展和监管框架。
  2. 本研究构建了一个开放的地理空间数据集,包含油棕种植园和相关土地覆盖类型,并进行了专家标注和质量控制。
  3. 该数据集适用于训练和评估传统的卷积神经网络以及新兴的地理空间基础模型,旨在提高土地覆盖类型映射的准确性。

📝 摘要(中文)

本文介绍了一个印尼油棕种植园及相关土地覆盖类型的开放获取地理空间数据集。该数据集通过专家标注2020年至2024年的高分辨率卫星图像生成,提供了覆盖多种农业生态区域的、基于多边形的、全覆盖的标注。数据集包含一个分层类型体系,区分了油棕的种植阶段以及类似的多年生作物。通过多位标注员共识和实地验证确保了数据质量。该数据集采用全覆盖数字化方式创建,适用于训练和评估传统卷积神经网络以及新型地理空间基础模型。该数据集以CC-BY许可发布,填补了遥感训练数据的一个关键空白,旨在提高土地覆盖类型映射的准确性。通过支持对油棕扩张的透明监测,该资源有助于实现全球减少森林砍伐的目标,并遵循FAIR数据原则。

🔬 方法详解

问题定义:该论文旨在解决印尼油棕种植园精确测绘的问题,以支持可持续发展和减少森林砍伐。现有方法缺乏高质量、大规模、开放获取的标注数据集,限制了遥感图像分析和土地覆盖类型映射的准确性。

核心思路:论文的核心思路是通过专家标注高分辨率卫星图像,构建一个高质量、全覆盖的油棕种植园地理空间数据集。该数据集包含详细的土地覆盖类型信息,并采用分层类型体系,区分油棕的不同种植阶段和相似作物,从而为模型训练提供更丰富的信息。

技术框架:该数据集的构建流程主要包括以下几个阶段:1) 选择覆盖印尼不同农业生态区域的高分辨率卫星图像;2) 由领域专家进行多边形标注,标注油棕种植园和相关土地覆盖类型;3) 采用多位标注员共识机制,确保标注质量;4) 进行实地验证,进一步提高数据准确性;5) 以CC-BY许可发布数据集,方便研究人员使用。

关键创新:该论文的关键创新在于构建了一个大规模、高质量、开放获取的油棕种植园地理空间数据集,并采用了分层类型体系和多位标注员共识机制,提高了数据的准确性和可用性。该数据集填补了现有遥感训练数据的空白,为开发更精确的土地覆盖类型映射模型提供了基础。

关键设计:数据集采用多边形标注,提供了精确的地理空间信息。分层类型体系区分了油棕的不同种植阶段和相似作物,为模型训练提供了更细粒度的信息。多位标注员共识机制和实地验证确保了数据质量。数据集以GeoTIFF格式存储,方便与各种地理信息系统和遥感软件集成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该数据集通过专家标注和质量控制,提供了高质量的油棕种植园和相关土地覆盖类型的标注数据。数据集覆盖了印尼不同的农业生态区域,并采用了分层类型体系,区分了油棕的不同种植阶段和相似作物。该数据集的发布将促进GeoAI模型在土地覆盖类型映射方面的研究和应用。

🎯 应用场景

该研究成果可广泛应用于油棕种植园监测、森林砍伐评估、土地利用规划、可持续农业发展等领域。通过利用该数据集训练的GeoAI模型,可以更准确地识别和监测油棕种植园的扩张,为政府、企业和研究机构提供决策支持,促进可持续的土地管理和环境保护。

📄 摘要(原文)

Oil palm cultivation remains one of the leading causes of deforestation in Indonesia. To better track and address this challenge, detailed and reliable mapping is needed to support sustainability efforts and emerging regulatory frameworks. We present an open-access geospatial dataset of oil palm plantations and related land cover types in Indonesia, produced through expert labeling of high-resolution satellite imagery from 2020 to 2024. The dataset provides polygon-based, wall-to-wall annotations across a range of agro-ecological zones and includes a hierarchical typology that distinguishes oil palm planting stages as well as similar perennial crops. Quality was ensured through multi-interpreter consensus and field validation. The dataset was created using wall-to-wall digitization over large grids, making it suitable for training and benchmarking both conventional convolutional neural networks and newer geospatial foundation models. Released under a CC-BY license, it fills a key gap in training data for remote sensing and aims to improve the accuracy of land cover types mapping. By supporting transparent monitoring of oil palm expansion, the resource contributes to global deforestation reduction goals and follows FAIR data principles.