GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection

📄 arXiv: 2605.29539v1 📥 PDF

作者: Jiacong Liu, Shu Luo, Yikai Qin, Yaze Zhao, Yongwei Jiang, Yixiong Zou

分类: cs.CV, cs.AI

发布日期: 2026-05-28

备注: CVPR 2026 Workshop

🔗 代码/项目: GITHUB


💡 一句话要点

提出GiPL,通过生成增强迭代伪标签解决跨域小样本目标检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨域小样本学习 目标检测 伪标签 数据增强 视觉-语言模型

📋 核心要点

  1. 跨域小样本目标检测面临支持集利用不足和目标域过拟合两大难题。
  2. GiPL采用迭代伪标签自训练和生成数据增强的双分支策略,提升模型性能。
  3. 在多个数据集上的实验表明,GiPL显著优于现有方法,性能提升明显。

📝 摘要(中文)

本文提出GiPL,一个高效的双分支训练框架,用于解决跨域小样本目标检测(CD-FSOD)中微调时面临的两个关键挑战:由于稀疏的单实例标注导致的支持集利用不足,以及在极有限的目标域样本下的严重过拟合。在第一个分支中,我们设计了一种迭代伪标签自训练范式,该范式对支持集执行零样本推理以生成可靠的伪标注,将其与真实标签融合,并迭代优化模型以充分利用支持集数据。在第二个分支中,我们引入了使用大型视觉-语言模型的生成数据增强流程,该流程合成域对齐的多目标标注图像,以丰富训练样本并抑制过拟合。在三个具有挑战性的CD-FSOD数据集(RUOD、CARPK、CarDD)上进行的1/5/10-shot设置下的广泛实验表明,GiPL始终优于最先进的方法,并具有显着的性能提升。

🔬 方法详解

问题定义:跨域小样本目标检测(CD-FSOD)旨在利用少量目标域样本,将模型从源域迁移到目标域。现有方法通常面临两个主要问题:一是支持集样本数量少,标注稀疏,难以充分利用;二是目标域样本极少,容易导致模型过拟合,泛化能力差。

核心思路:GiPL的核心思路是充分挖掘支持集信息,并生成更多样化的目标域数据,从而缓解数据稀疏和过拟合问题。具体来说,通过迭代伪标签自训练,逐步提升支持集数据的利用率;通过生成数据增强,扩充目标域样本,提高模型的泛化能力。

技术框架:GiPL采用双分支训练框架。第一个分支是迭代伪标签自训练分支,利用零样本推理生成支持集的伪标签,并与真实标签融合,迭代优化模型。第二个分支是生成数据增强分支,利用大型视觉-语言模型生成域对齐的多目标标注图像,扩充训练样本。两个分支协同训练,提升模型性能。

关键创新:GiPL的关键创新在于结合了迭代伪标签自训练和生成数据增强,充分利用了支持集信息,并有效缓解了目标域过拟合问题。与传统方法相比,GiPL能够更有效地利用有限的数据,提升模型的泛化能力。

关键设计:在迭代伪标签自训练分支中,采用置信度阈值筛选伪标签,保证伪标签的质量。在生成数据增强分支中,利用视觉-语言模型生成与目标域风格一致的图像,并进行多目标标注。损失函数方面,采用目标检测常用的损失函数,并根据两个分支的特点进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GiPL在RUOD、CARPK和CarDD三个CD-FSOD数据集上进行了广泛的实验,结果表明GiPL在1/5/10-shot设置下均优于现有最先进的方法。例如,在RUOD数据集上,GiPL在1-shot设置下取得了显著的性能提升,证明了其在极低数据量下的有效性。实验结果充分验证了GiPL的优越性和泛化能力。

🎯 应用场景

GiPL在智能交通、遥感图像分析、医疗影像诊断等领域具有广泛的应用前景。例如,在智能交通中,可以利用少量摄像头拍摄的图像,快速训练出能够检测特定车辆或交通标志的模型。在医疗影像诊断中,可以利用少量病例数据,训练出能够辅助医生进行疾病诊断的模型。该研究成果有助于降低数据标注成本,提高模型部署效率。

📄 摘要(原文)

Vision-language foundation models have shown promising zero-shot generalization for Cross-Domain Few-Shot Object Detection (CD-FSOD). However, they face two critical challenges in fine-tuning: insufficient support set utilization due to sparse single-instance annotations, and severe overfitting under extremely limited target-domain samples. To address these issues, this paper proposes GiPL, an efficient two-branch training framework.In the first branch, we design an iterative pseudo-label self-training paradigm, which performs zero-shot inference on the support set to generate reliable pseudo-annotations, fuses them with ground-truth labels, and iteratively optimizes the model to fully exploit support set data. In the second branch, we introduce generative data augmentation pipeline using large vision-language models, which synthesizes domain-aligned, multi-object annotated images to enrich training samples and suppress overfitting. Extensive experiments on three challenging CD-FSOD datasets (RUOD, CARPK, CarDD) under 1/5/10-shot settings demonstrate that GiPL consistently outperforms state-of-the-art methods with significant performance gains.Code is available at \href{https://github.com/z-yaz/CDiscover}{CDiscover}.