ELDOR: A Dataset and Benchmark for Illegal Gold Mining in the Amazon Rainforest
作者: Kangning Cui, Surendra Bohara, Suraj Prasai, Zishan Shao, Wei Tang, Martin Pillaca, Edwin Flores, Zhen Yang, Gregory Larsen, Evan Dethier, David Lutz, Jean-Michel Morel, Miles Silman, Victor Pauca, Fan Yang
分类: cs.CV
发布日期: 2026-05-14
备注: 70 pages, 35 figures, 28 tables
💡 一句话要点
ELDOR:亚马逊雨林非法金矿开采监测数据集与基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 非法金矿开采 亚马逊雨林 无人机遥感 语义分割 多标签分类
📋 核心要点
- 现有方法难以在精细尺度上监测亚马逊雨林非法金矿开采,卫星图像易受云层影响,难以识别小型采矿结构。
- 论文提出ELDOR数据集,包含大规模无人机图像和像素级语义标注,涵盖采矿活动和生态结构,用于训练和评估模型。
- 实验表明,现有方法在处理小规模采矿结构和细粒度恢复类别时表现不佳,需要更强的上下文感知和多模态建模能力。
📝 摘要(中文)
亚马逊雨林中的非法金矿开采导致森林砍伐、水污染和长期的生态系统破坏,但在精细的空间尺度上进行监测仍然很困难。卫星图像支持大规模观测,但经常遗漏与采矿相关的小型结构和细微的土地覆盖过渡,尤其是在频繁的云层覆盖下。我们推出了ELDOR,这是一个大规模无人机基准,用于监测雨林中非法金矿开采对环境和景观的破坏。ELDOR包含手动标注的正射镶嵌图像,覆盖超过2500公顷,具有像素级的语义标签,包括与采矿相关的活动和周围的生态结构。基于此统一的标注源,我们建立了四个基准任务:语义分割、基于分割的识别、直接多标签分类以及使用视觉-语言模型的类别存在识别。在这些任务中,我们比较了通用和遥感特定的分割模型、与视觉基础模型相关的分割方法、直接多标签分类方法以及视觉-语言模型。结果表明,当前的方法仍然难以处理罕见的小规模采矿结构和细粒度的恢复类别,这表明需要上下文感知和多模态建模。为了支持领域分析和实际使用,我们进一步构建了一个交互式浏览器,供领域专家使用,该浏览器提供了一个统一的界面,用于数据探索和模型推理。
🔬 方法详解
问题定义:论文旨在解决亚马逊雨林中非法金矿开采活动难以监测的问题。现有方法,如基于卫星图像的监测,受限于分辨率和云层覆盖,无法有效识别小规模采矿结构和细微的土地覆盖变化。这导致对环境破坏的评估和监管变得困难。
核心思路:论文的核心思路是构建一个高质量、大规模的无人机图像数据集,并提供像素级别的语义标注,从而为开发更精确的监测模型提供基础。通过无人机获取高分辨率图像,并由专家进行细致的标注,可以克服卫星图像的局限性。
技术框架:ELDOR数据集包含超过2500公顷的手动标注正射镶嵌图像。论文基于此数据集建立了四个基准任务:1) 语义分割,将每个像素分类为不同的采矿活动或生态结构;2) 基于分割的识别,从分割结果中识别特定对象;3) 直接多标签分类,直接预测图像中存在的类别;4) 使用视觉-语言模型的类别存在识别。论文评估了多种模型,包括通用分割模型、遥感专用分割模型、视觉基础模型和视觉-语言模型。
关键创新:该论文的关键创新在于构建了首个大规模、高分辨率的亚马逊雨林非法金矿开采无人机图像数据集,并提供了像素级别的语义标注。此外,论文还定义了一系列基准任务,为后续研究提供了统一的评估标准。
关键设计:ELDOR数据集的标注包括多种采矿活动(如挖掘、水池、道路)和生态结构(如森林、非森林植被、裸土)。论文采用闭集协议进行评估,确保所有测试类别都在训练集中出现。论文还构建了一个交互式浏览器,方便领域专家进行数据探索和模型推理。
📊 实验亮点
实验结果表明,现有方法在ELDOR数据集上表现不佳,尤其是在处理小规模采矿结构和细粒度恢复类别时。这表明需要开发更先进的模型,例如结合上下文信息和多模态数据的模型,以提高监测精度。该数据集和基准测试为未来的研究提供了重要的资源。
🎯 应用场景
该研究成果可应用于亚马逊雨林及其他地区的非法采矿活动监测,为环境保护、生态恢复和政府监管提供技术支持。通过训练更精确的图像识别模型,可以更有效地识别和定位非法采矿点,从而减少环境破坏,保护生物多样性,并促进可持续发展。
📄 摘要(原文)
Illegal gold mining in the Amazon rainforest causes deforestation, water contamination, and long-term ecosystem disruption, yet remains difficult to monitor at fine spatial scales. Satellite imagery supports large-scale observation, but often misses small mining-related structures and subtle land-cover transitions, especially under frequent cloud cover. We introduce ELDOR, a large-scale UAV benchmark for monitoring environmental and landscape disturbance from illegal gold mining in the rainforest. ELDOR contains manually annotated orthomosaic imagery covering over 2,500 hectares, with pixel-level semantic labels for both mining-related activities and surrounding ecological structures. With this unified annotation source, we establish four benchmark tasks: semantic segmentation, segmentation-derived recognition, direct multi-label classification, and class-presence recognition with vision-language models. Across these tasks, we compare generic and remote-sensing-specific segmentation models, vision foundation model-related segmentation methods, direct multi-label classification methods, and vision-language models under a controlled closed-set protocol. Results show that current methods still struggle with rare small-scale mining structures and fine-grained recovery classes, suggesting the need for context-aware and multimodal modeling. To support domain analysis and practical use, we further build an interactive explorer for domain experts that provides a unified interface for data exploration and model inference.