FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion
作者: Chen-Bin Feng, Youyang Sha, Longfei Liu, Yongjun Yu, Chi Man Vong, Xuanlong Yu, Xi Shen
分类: cs.CV
发布日期: 2026-02-03
备注: Accepted by ICLR 2026. Code is available at: \url{https://intellindust-ai-lab.github.io/projects/FSOD-VFM}
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
FSOD-VFM:利用视觉基础模型和图扩散进行少样本目标检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 少样本目标检测 视觉基础模型 图扩散 置信度重加权 通用提议网络
📋 核心要点
- 现有少样本目标检测方法在泛化性和准确性上存在不足,尤其是在处理复杂场景时,容易产生过度分割的边界框。
- FSOD-VFM利用视觉基础模型,结合通用提议网络、SAM2和DINOv2特征,并通过图扩散进行置信度重加权,提升检测精度。
- 实验结果表明,FSOD-VFM在多个数据集上显著优于现有方法,尤其是在CD-FSOD数据集上,10-shot设置下AP值提升显著。
📝 摘要(中文)
本文提出了FSOD-VFM,一个利用视觉基础模型解决少样本目标检测挑战的框架。FSOD-VFM集成了三个关键组件:用于类别无关边界框生成的通用提议网络(UPN)、用于精确掩码提取的SAM2以及用于高效适应新对象类别的DINOv2特征。尽管基础模型具有强大的泛化能力,但UPN生成的边界框经常过度分割,仅覆盖部分对象区域,导致大量小的、假阳性提议,而非准确、完整的对象检测。为了解决这个问题,我们引入了一种新的基于图的置信度重加权方法。在该方法中,预测的边界框被建模为有向图中的节点,并应用图扩散操作来在网络中传播置信度分数。这个重加权过程细化了提议的分数,为整个对象分配更高的置信度,为局部、碎片化的部分分配更低的置信度。这种策略提高了检测粒度,并有效地减少了假阳性边界框提议的出现。通过在Pascal-5$^i$、COCO-20$^i$和CD-FSOD数据集上的大量实验,我们证明了我们的方法大大优于现有方法,在不需要额外训练的情况下实现了卓越的性能。值得注意的是,在跨多个数据集和领域的具有挑战性的CD-FSOD数据集上,我们的FSOD-VFM在10-shot设置中实现了31.6 AP,大大优于之前仅达到21.4 AP的无训练方法。
🔬 方法详解
问题定义:论文旨在解决少样本目标检测中,由于视觉基础模型生成的边界框过度分割,导致大量假阳性提议的问题。现有方法难以在仅有少量样本的情况下,准确检测出完整的目标对象,尤其是在跨领域数据集上表现不佳。
核心思路:论文的核心思路是利用图扩散来对提议的置信度进行重加权。通过将边界框建模为图中的节点,并利用图扩散算法传播置信度,从而提高完整对象的置信度,降低碎片化区域的置信度。这种方法旨在减少假阳性,提升检测精度。
技术框架:FSOD-VFM框架包含三个主要模块:1) 通用提议网络(UPN),用于生成类别无关的边界框提议;2) SAM2,用于提取精确的掩码;3) DINOv2特征,用于高效适应新的对象类别。此外,还包括一个基于图的置信度重加权模块,该模块对UPN生成的提议进行后处理,利用图扩散算法优化置信度。
关键创新:最重要的技术创新点是基于图的置信度重加权方法。与传统的置信度评分方法不同,该方法考虑了边界框之间的关系,通过图扩散算法,将相邻且相关的边界框的置信度进行传播和调整,从而更准确地评估每个提议的质量。这与现有方法仅关注单个边界框的置信度评分有本质区别。
关键设计:在图构建方面,论文将每个边界框作为一个节点,并根据边界框之间的IoU(Intersection over Union)值来确定边的权重。图扩散算法采用迭代的方式更新节点的置信度,每次迭代都会将相邻节点的置信度信息进行融合。具体的扩散公式和迭代次数是需要仔细调整的关键参数。损失函数方面,论文采用标准的检测损失函数,并结合置信度重加权后的结果进行优化。
🖼️ 关键图片
📊 实验亮点
FSOD-VFM在Pascal-5$^i$、COCO-20$^i$和CD-FSOD数据集上进行了广泛的实验,结果表明该方法显著优于现有的少样本目标检测方法。特别是在具有挑战性的CD-FSOD数据集上,FSOD-VFM在10-shot设置下达到了31.6 AP,相比于之前最好的无训练方法(21.4 AP)提升了超过10个百分点,证明了其在跨领域少样本目标检测方面的优越性能。
🎯 应用场景
FSOD-VFM在目标检测领域具有广泛的应用前景,尤其适用于数据标注成本高昂或难以获取大量训练样本的场景,例如医学图像分析、遥感图像解译、安防监控等。该方法可以快速适应新的目标类别,降低对大量标注数据的依赖,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
In this paper, we present FSOD-VFM: Few-Shot Object Detectors with Vision Foundation Models, a framework that leverages vision foundation models to tackle the challenge of few-shot object detection. FSOD-VFM integrates three key components: a universal proposal network (UPN) for category-agnostic bounding box generation, SAM2 for accurate mask extraction, and DINOv2 features for efficient adaptation to new object categories. Despite the strong generalization capabilities of foundation models, the bounding boxes generated by UPN often suffer from overfragmentation, covering only partial object regions and leading to numerous small, false-positive proposals rather than accurate, complete object detections. To address this issue, we introduce a novel graph-based confidence reweighting method. In our approach, predicted bounding boxes are modeled as nodes in a directed graph, with graph diffusion operations applied to propagate confidence scores across the network. This reweighting process refines the scores of proposals, assigning higher confidence to whole objects and lower confidence to local, fragmented parts. This strategy improves detection granularity and effectively reduces the occurrence of false-positive bounding box proposals. Through extensive experiments on Pascal-5$^i$, COCO-20$^i$, and CD-FSOD datasets, we demonstrate that our method substantially outperforms existing approaches, achieving superior performance without requiring additional training. Notably, on the challenging CD-FSOD dataset, which spans multiple datasets and domains, our FSOD-VFM achieves 31.6 AP in the 10-shot setting, substantially outperforming previous training-free methods that reach only 21.4 AP. Code is available at: https://intellindust-ai-lab.github.io/projects/FSOD-VFM.