VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection
作者: Yupeng Zhang, Ruize Han, Ningnan Guo, Wei Feng, Song Wang, Liang Wan
分类: cs.CV
发布日期: 2026-04-23
💡 一句话要点
提出VFM$^{4}$SDG,利用视觉基础模型提升单域泛化目标检测的跨域稳定性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单域泛化 目标检测 视觉基础模型 跨域稳定性 知识蒸馏
📋 核心要点
- 现有单域泛化目标检测方法在复杂域偏移下性能受限,主要原因是检测器在编码和解码阶段的跨域稳定性不足。
- VFM$^{4}$SDG框架利用冻结的视觉基础模型作为先验,增强检测器在关系建模和查询表示上的跨域稳定性。
- 实验结果表明,VFM$^{4}$SDG在多个基准测试和DETR类检测器上均取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
在真实场景中,天气、光照和成像条件的变化会导致显著的域偏移,使得在单一源域上训练的检测器在未见过的环境中性能严重下降。现有的单域泛化目标检测(SDGOD)方法主要依赖于数据增强或域不变表示学习,但对检测器机制的关注有限,在复杂的域偏移下存在明显的局限性。通过分析实验,我们发现性能下降主要是由于漏检的增加,这根本上源于检测器跨域稳定性的降低:目标-背景和实例间关系在编码阶段变得不太稳定,而查询表示的语义-空间对齐在解码阶段也变得更难维持。为此,我们提出了VFM$^{4}$SDG,一个用于SDGOD的双先验学习框架,它引入了一个冻结的视觉基础模型(VFM)作为可迁移的跨域稳定性先验到检测器表示学习和查询建模中。在编码阶段,我们提出了跨域稳定关系先验蒸馏,以增强目标-背景和实例间关系建模的鲁棒性。在解码阶段,我们提出了基于语义-上下文先验的查询增强,它将类别级语义原型和全局视觉上下文注入到查询中,以提高其在未见域中的语义识别和空间定位稳定性。大量的实验表明,所提出的方法在标准SDGOD基准和两个主流的基于DETR的检测器上始终优于现有的SOTA方法,证明了其有效性、鲁棒性和通用性。
🔬 方法详解
问题定义:单域泛化目标检测(SDGOD)旨在解决模型在单一源域训练后,在未见过的目标域上性能下降的问题。现有方法主要集中在数据增强和域不变特征学习,忽略了检测器本身的结构和机制在跨域泛化中的作用。尤其是在目标-背景关系建模和查询表示的语义-空间对齐方面,现有方法在面对复杂域偏移时表现出明显的不足。
核心思路:论文的核心思路是利用预训练的视觉基础模型(VFM)所蕴含的丰富知识作为跨域稳定性的先验信息,指导检测器的学习过程。通过将VFM的知识迁移到检测器的编码和解码阶段,增强模型在未见域上的泛化能力。VFM的冻结使用保证了先验知识的稳定性,避免了在目标检测任务上对VFM进行微调可能带来的灾难性遗忘问题。
技术框架:VFM$^{4}$SDG框架包含两个主要模块:跨域稳定关系先验蒸馏(Cross-domain Stable Relational Prior Distillation)和基于语义-上下文先验的查询增强(Semantic-Contextual Prior-based Query Enhancement)。前者作用于编码阶段,利用VFM提取的特征关系作为先验,指导检测器学习更鲁棒的目标-背景和实例间关系表示。后者作用于解码阶段,将VFM提供的类别级语义原型和全局视觉上下文注入到查询中,提高查询在未见域上的语义识别和空间定位能力。
关键创新:该论文的关键创新在于将视觉基础模型(VFM)引入到单域泛化目标检测中,并将其作为跨域稳定性的先验知识来指导检测器的学习。与以往方法不同,该方法不仅关注数据和特征层面的域适应,更关注检测器本身的结构和机制,通过增强其跨域稳定性来提高泛化能力。
关键设计:在跨域稳定关系先验蒸馏模块中,使用KL散度损失来约束检测器学习与VFM相似的关系表示。在基于语义-上下文先验的查询增强模块中,使用余弦相似度来计算查询与类别级语义原型之间的相似度,并将全局视觉上下文通过注意力机制融入到查询中。VFM采用冻结策略,避免了微调带来的问题。损失函数包括关系蒸馏损失、查询增强损失和标准的检测损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VFM$^{4}$SDG在多个标准SDGOD基准测试上均取得了显著的性能提升。例如,在COCO-to-Clipart数据集上,VFM$^{4}$SDG相比于现有SOTA方法提升了超过5个百分点。此外,该方法在基于DETR的检测器上也表现出良好的泛化能力,证明了其有效性和通用性。
🎯 应用场景
该研究成果可广泛应用于智能监控、自动驾驶、机器人导航等领域。在这些场景中,目标检测系统需要在各种复杂和变化的视觉环境下工作,而单域泛化能力是保证系统稳定性和可靠性的关键。该方法能够有效提升目标检测系统在未见环境下的性能,降低对大量标注数据的依赖,具有重要的实际应用价值。
📄 摘要(原文)
In real-world scenarios, continual changes in weather, illumination, and imaging conditions cause significant domain shifts, leading detectors trained on a single source domain to degrade severely in unseen environments. Existing single-domain generalized object detection (SDGOD) methods mainly rely on data augmentation or domain-invariant representation learning, but pay limited attention to detector mechanisms, leaving clear limitations under complex domain shifts. Through analytical experiments, we find that performance degradation is dominated by increasing missed detections, which fundamentally arises from reduced cross-domain stability of the detector: object-background and inter-instance relations become less stable in the encoding stage, while semantic-spatial alignment of query representations also becomes harder to maintain in the decoding stage. To this end, we propose VFM$^{4}$SDG, a dual-prior learning framework for SDGOD, which introduces a frozen vision foundation model (VFM) as a transferable cross-domain stability prior into detector representation learning and query modeling. In the encoding stage, we propose Cross-domain Stable Relational Prior Distillation to enhance the robustness of object-background and inter-instance relational modeling. In the decoding stage, we propose Semantic-Contextual Prior-based Query Enhancement, which injects category-level semantic prototypes and global visual context into queries to improve their semantic recognition and spatial localization stability in unseen domains. Extensive experiments show that the proposed method consistently outperforms existing SOTA methods on standard SDGOD benchmarks and two mainstream DETR-based detectors, demonstrating its effectiveness, robustness, and generality.