GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection

作者: Jiacong Liu, Shu Luo, Yikai Qin, Yaze Zhao, Yongwei Jiang, Yixiong Zou

分类: cs.CV, cs.AI

发布日期: 2026-05-28

备注: CVPR 2026 Workshop

🔗 代码/项目: GITHUB

💡 一句话要点

提出GiPL，通过生成增强迭代伪标签解决跨域小样本目标检测问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨域小样本学习 目标检测 伪标签 数据增强 视觉-语言模型

📋 核心要点

跨域小样本目标检测面临支持集利用不足和目标域过拟合两大难题。
GiPL采用迭代伪标签自训练和生成数据增强的双分支策略，提升模型性能。
在多个数据集上的实验表明，GiPL显著优于现有方法，性能提升明显。

📝 摘要（中文）

本文提出GiPL，一个高效的双分支训练框架，用于解决跨域小样本目标检测(CD-FSOD)中微调时面临的两个关键挑战：由于稀疏的单实例标注导致的支持集利用不足，以及在极有限的目标域样本下的严重过拟合。在第一个分支中，我们设计了一种迭代伪标签自训练范式，该范式对支持集执行零样本推理以生成可靠的伪标注，将其与真实标签融合，并迭代优化模型以充分利用支持集数据。在第二个分支中，我们引入了使用大型视觉-语言模型的生成数据增强流程，该流程合成域对齐的多目标标注图像，以丰富训练样本并抑制过拟合。在三个具有挑战性的CD-FSOD数据集（RUOD、CARPK、CarDD）上进行的1/5/10-shot设置下的广泛实验表明，GiPL始终优于最先进的方法，并具有显着的性能提升。

🔬 方法详解

问题定义：跨域小样本目标检测(CD-FSOD)旨在利用少量目标域样本，将模型从源域迁移到目标域。现有方法通常面临两个主要问题：一是支持集样本数量少，标注稀疏，难以充分利用；二是目标域样本极少，容易导致模型过拟合，泛化能力差。

核心思路：GiPL的核心思路是充分挖掘支持集信息，并生成更多样化的目标域数据，从而缓解数据稀疏和过拟合问题。具体来说，通过迭代伪标签自训练，逐步提升支持集数据的利用率；通过生成数据增强，扩充目标域样本，提高模型的泛化能力。

技术框架：GiPL采用双分支训练框架。第一个分支是迭代伪标签自训练分支，利用零样本推理生成支持集的伪标签，并与真实标签融合，迭代优化模型。第二个分支是生成数据增强分支，利用大型视觉-语言模型生成域对齐的多目标标注图像，扩充训练样本。两个分支协同训练，提升模型性能。

关键创新：GiPL的关键创新在于结合了迭代伪标签自训练和生成数据增强，充分利用了支持集信息，并有效缓解了目标域过拟合问题。与传统方法相比，GiPL能够更有效地利用有限的数据，提升模型的泛化能力。

关键设计：在迭代伪标签自训练分支中，采用置信度阈值筛选伪标签，保证伪标签的质量。在生成数据增强分支中，利用视觉-语言模型生成与目标域风格一致的图像，并进行多目标标注。损失函数方面，采用目标检测常用的损失函数，并根据两个分支的特点进行调整。

🖼️ 关键图片

📊 实验亮点

GiPL在RUOD、CARPK和CarDD三个CD-FSOD数据集上进行了广泛的实验，结果表明GiPL在1/5/10-shot设置下均优于现有最先进的方法。例如，在RUOD数据集上，GiPL在1-shot设置下取得了显著的性能提升，证明了其在极低数据量下的有效性。实验结果充分验证了GiPL的优越性和泛化能力。

🎯 应用场景

GiPL在智能交通、遥感图像分析、医疗影像诊断等领域具有广泛的应用前景。例如，在智能交通中，可以利用少量摄像头拍摄的图像，快速训练出能够检测特定车辆或交通标志的模型。在医疗影像诊断中，可以利用少量病例数据，训练出能够辅助医生进行疾病诊断的模型。该研究成果有助于降低数据标注成本，提高模型部署效率。

📄 摘要（原文）

Vision-language foundation models have shown promising zero-shot generalization for Cross-Domain Few-Shot Object Detection (CD-FSOD). However, they face two critical challenges in fine-tuning: insufficient support set utilization due to sparse single-instance annotations, and severe overfitting under extremely limited target-domain samples. To address these issues, this paper proposes GiPL, an efficient two-branch training framework.In the first branch, we design an iterative pseudo-label self-training paradigm, which performs zero-shot inference on the support set to generate reliable pseudo-annotations, fuses them with ground-truth labels, and iteratively optimizes the model to fully exploit support set data. In the second branch, we introduce generative data augmentation pipeline using large vision-language models, which synthesizes domain-aligned, multi-object annotated images to enrich training samples and suppress overfitting. Extensive experiments on three challenging CD-FSOD datasets (RUOD, CARPK, CarDD) under 1/5/10-shot settings demonstrate that GiPL consistently outperforms state-of-the-art methods with significant performance gains.Code is available at \href{https://github.com/z-yaz/CDiscover}{CDiscover}.

GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理