Adapting SAM with Dynamic Similarity Graphs for Few-Shot Parameter-Efficient Small Dense Object Detection: A Case Study of Chickpea Pods in Field Conditions

📄 arXiv: 2509.25805v1 📥 PDF

作者: Xintong Jiang, Yixue Liu, Mohamed Debbagh, Yu Tian, Valerio Hoyos-Villegas, Viacheslav Adamchuk, Shangpeng Sun

分类: cs.CV

发布日期: 2025-09-30

备注: 23 pages, 11 figures, 4 tables


💡 一句话要点

提出基于动态相似图的SAM自适应方法,用于少样本密集小目标检测,以田间鹰嘴豆荚为例。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小目标检测 少样本学习 参数高效微调 动态相似图 农业计算机视觉

📋 核心要点

  1. 农业场景下小目标密集检测面临数据稀缺和环境复杂双重挑战,现有方法难以兼顾精度与效率。
  2. 提出动态相似图自适应模块(DSGA),结合LoRA,在少量样本下实现SAM模型的高效微调。
  3. 实验表明,该方法在鹰嘴豆荚数据集上显著提升分割和计数精度,验证了其在农业监测中的潜力。

📝 摘要(中文)

本研究针对农业计算机视觉任务中,由于训练数据有限和复杂的田间环境,基础模型参数高效微调(PEFT)的挑战,提出了一种基于动态相似图的自适应(DSGA)模块,用于在极端数据约束下自适应分割一切模型(SAM),以实现复杂农业环境中密集小目标的前景和实例精确分割。DSGA通过可学习的多项式衰减初始化权重排序机制构建动态相似图,并进行自适应局部特征聚合,仅用400万可训练参数(占原始SAM的4.26%)即可建立鲁棒的空间和动态相似性表示。将这种基于图的特征自适应与低秩自适应(LoRA)集成,创建了一个互补的优化框架,有效捕获图像嵌入中的局部和全局依赖关系,同时保持模型稳定性和参数效率。在具有挑战性的鹰嘴豆荚数据集上的实验结果表明,DSGA与LoRA在2、4、8和10个样本下,在多个指标上均优于基线SAM微调,并且随着样本数量的增加,性能逐渐提高。定量指标显示,结构度量提高了17.31%,自适应F度量提高了62.36%。通过Grad-CAM和t-SNE进行的综合消融研究和可视化分析验证了该框架在特征区分方面的有效性。该自适应方法展示了在自动化农业监测应用中的实用性,在具有10到120个豆荚的图像中,实现了精确的豆荚计数,调整后的R平方值为0.8987。

🔬 方法详解

问题定义:论文旨在解决农业环境中,特别是田间条件下,小而密集的物体(如鹰嘴豆荚)的精确检测和分割问题。现有的通用分割模型,如SAM,在直接应用于此类场景时,由于数据量少、目标小且背景复杂,往往表现不佳。直接微调整个SAM模型参数量巨大,不适用于资源受限的农业应用。

核心思路:论文的核心思路是利用动态相似图来增强SAM模型对局部和全局上下文信息的理解,并结合LoRA进行参数高效的微调。通过构建动态相似图,模型能够更好地捕捉目标之间的关系以及目标与背景之间的区分性特征。LoRA则保证了在少量样本下,模型能够快速适应新任务,同时避免过拟合。

技术框架:整体框架包括以下几个主要模块:1) SAM模型作为基础分割模型;2) DSGA模块,用于构建动态相似图并进行特征自适应;3) LoRA模块,用于参数高效的微调。首先,图像通过SAM模型提取特征。然后,DSGA模块利用可学习的权重排序机制构建动态相似图,并进行局部特征聚合,增强特征表达。最后,LoRA模块对SAM模型的关键层进行微调,使其适应特定任务。

关键创新:最重要的技术创新点在于DSGA模块。与传统的静态图或卷积操作相比,DSGA模块能够动态地学习节点之间的相似性关系,并根据相似性权重进行特征聚合。这种动态性使得模型能够更好地适应不同场景和目标的变化。此外,DSGA模块结合了可学习的多项式衰减初始化权重排序机制,进一步提升了相似性度量的准确性。

关键设计:DSGA模块的关键设计包括:1) 使用可学习的多项式衰减初始化权重排序机制,用于计算节点之间的相似性;2) 使用自适应局部特征聚合,根据相似性权重对局部特征进行加权平均;3) 将DSGA模块与LoRA结合,实现参数高效的微调。损失函数方面,论文可能采用了标准的分割损失函数,如Dice Loss或Cross-Entropy Loss。网络结构方面,DSGA模块的具体实现细节(如卷积核大小、通道数等)可能在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSGA与LoRA结合的方法在小样本鹰嘴豆荚数据集上取得了显著的性能提升。与基线SAM微调相比,结构度量提高了17.31%,自适应F度量提高了62.36%。在豆荚计数任务中,调整后的R平方值达到了0.8987,表明该方法能够准确地估计豆荚数量,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于精准农业领域,例如农作物生长监测、产量预测、病虫害检测等。通过自动化识别和分割农作物目标,可以减少人工巡检成本,提高农业生产效率。此外,该方法还可以推广到其他小目标密集检测场景,如遥感图像分析、医学图像诊断等。

📄 摘要(原文)

Parameter-Efficient Fine-Tuning (PEFT) of foundation models for agricultural computer vision tasks remains challenging due to limited training data and complex field conditions. This study introduces a Dynamic Similarity-based Graph Adaptation (DSGA) module to adapt the Segment Anything Model (SAM) under extreme data constraints for precise foreground and instance segmentation of small dense objects in complex agricultural environments. Through dynamic similarity graph construction with a learnable polynomial decay-initialized weight ranking mechanism and adaptive local feature aggregation, DSGA establishes robust spatial and dynamic similarity representation with only 4.00M trainable parameters, which is 4.26% of the original SAM. Integrating this graph-based feature adaptation with Low-Rank Adaptation (LoRA) creates a complementary optimization framework that effectively captures both local and global dependencies in image embeddings while preserving model stability and parameter efficiency. Experimental results on a challenging chickpea pod dataset demonstrated that DSGA with LoRA achieved superior performance across multiple metrics evaluated under 2, 4, 8 and 10 shots, with progressive performance gains as shot count increased. Quantitative metrics showed a 17.31% improvement in Structure-measure and a 62.36% gain in adaptive F-measure compared to the baseline SAM fine-tuning. Comprehensive ablation studies and visualization analyses through Grad-CAM and t-SNE validated the framework's effectiveness in feature discrimination. The proposed adaptation demonstrated practical utility for automated agricultural monitoring applications, achieving accurate pod-counting with an adjusted R-squared of 0.8987 for images with 10 to 120 pods under challenging field conditions.