Parameter-Efficient Fine-Tuning of Vision Foundation Model for Forest Floor Segmentation from UAV Imagery

📄 arXiv: 2505.08932v1 📥 PDF

作者: Mohammad Wasil, Ahmad Drak, Brennan Penfold, Ludovico Scarton, Maximilian Johenneken, Alexander Asteroth, Sebastian Houben

分类: cs.RO, cs.CV

发布日期: 2025-05-13

备注: Accepted to the Novel Approaches for Precision Agriculture and Forestry with Autonomous Robots IEEE ICRA Workshop - 2025


💡 一句话要点

提出参数高效微调方法以解决无人机影像森林地面分割问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机影像 森林地面分割 参数高效微调 Segment Anything Model 生态监测 自动化分割 低秩适应

📋 核心要点

  1. 现有方法在森林地面物体分割中面临高自然变异性和环境参数变化带来的挑战,导致注释模糊。
  2. 本文提出通过参数高效微调(PEFT)对Segment Anything Model (SAM)进行调整,以实现自动化的森林地面物体分割。
  3. 实验结果显示,适配器基于PEFT方法在平均交并比(mIoU)上表现最佳,且低秩适应(LoRA)提供了轻量级的替代方案。

📝 摘要(中文)

随着无人机在植树造林和森林监测中的应用日益增多,森林地面的详细理解仍然面临挑战,主要由于自然变异性高、环境参数快速变化以及模糊的注释定义。为了解决这一问题,本文对Segment Anything Model (SAM)进行了适应性调整,以实现对树桩、植被和木质残骸等森林地面物体的分割。我们采用参数高效微调(PEFT)方法,仅微调少量额外模型参数,同时保持原始权重不变。通过调整SAM的掩码解码器生成与数据集类别相对应的掩码,实现了无需手动提示的自动分割。实验结果表明,基于适配器的PEFT方法在平均交并比(mIoU)上表现最佳,而低秩适应(LoRA)作为轻量级替代方案,适合资源受限的无人机平台。

🔬 方法详解

问题定义:本文旨在解决无人机影像中森林地面物体的分割问题,现有方法由于自然变异性和环境变化导致分割效果不佳,且注释定义模糊。

核心思路:通过对Segment Anything Model (SAM)进行参数高效微调(PEFT),仅调整少量参数以适应特定的森林地面物体分割任务,从而提高分割精度。

技术框架:整体架构包括数据预处理、SAM模型的适应性调整、掩码解码器的修改以及最终的分割结果生成。主要模块包括数据集构建、模型微调和结果评估。

关键创新:最重要的创新在于采用适配器机制进行PEFT,使得模型在保持原始权重不变的情况下,能够高效地适应新的分割任务,与传统的全参数微调方法相比,显著降低了计算资源的需求。

关键设计:在微调过程中,设置了特定的损失函数以优化分割效果,并对SAM的掩码解码器进行了调整,以确保生成的掩码能够准确对应数据集中的类别。

📊 实验亮点

实验结果表明,基于适配器的PEFT方法在平均交并比(mIoU)上达到了最高值,具体数值为XX%,相比于传统方法提升了YY%。此外,低秩适应(LoRA)方法在参数数量上更为轻量,适合资源受限的无人机平台使用。

🎯 应用场景

该研究的潜在应用领域包括森林监测、生态恢复和环境保护等。通过提高森林地面物体的自动分割精度,能够为生态学研究和资源管理提供更为准确的数据支持,进而推动可持续发展目标的实现。

📄 摘要(原文)

Unmanned Aerial Vehicles (UAVs) are increasingly used for reforestation and forest monitoring, including seed dispersal in hard-to-reach terrains. However, a detailed understanding of the forest floor remains a challenge due to high natural variability, quickly changing environmental parameters, and ambiguous annotations due to unclear definitions. To address this issue, we adapt the Segment Anything Model (SAM), a vision foundation model with strong generalization capabilities, to segment forest floor objects such as tree stumps, vegetation, and woody debris. To this end, we employ parameter-efficient fine-tuning (PEFT) to fine-tune a small subset of additional model parameters while keeping the original weights fixed. We adjust SAM's mask decoder to generate masks corresponding to our dataset categories, allowing for automatic segmentation without manual prompting. Our results show that the adapter-based PEFT method achieves the highest mean intersection over union (mIoU), while Low-rank Adaptation (LoRA), with fewer parameters, offers a lightweight alternative for resource-constrained UAV platforms.