Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

📄 arXiv: 2512.17514v2 📥 PDF

作者: Sairam VCR, Rishabh Lalla, Aveen Dayal, Tejal Kulkarni, Anuj Lalla, Vineeth N Balasubramanian, Muhammad Haris Khan

分类: cs.CV

发布日期: 2025-12-19 (更新: 2025-12-24)


💡 一句话要点

FALCON-SFOD:利用基础模型先验增强源域无关目标检测中的目标聚焦

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 源域无关目标检测 领域自适应 视觉基础模型 自监督学习 伪标签 目标检测 特征空间正则化 噪声鲁棒性

📋 核心要点

  1. 源域无关目标检测(SFOD)面临域迁移带来的挑战,现有方法难以维持强目标聚焦表征,导致伪标签质量下降。
  2. FALCON-SFOD框架利用视觉基础模型的先验知识,通过空间先验感知正则化(SPAR)增强特征空间的目标聚焦能力。
  3. 实验结果表明,FALCON-SFOD在SFOD基准测试中表现出色,证明了其在域迁移场景下的有效性。

📝 摘要(中文)

本文提出FALCON-SFOD框架,旨在增强域迁移下目标检测器对目标聚焦的自适应能力。现有源域无关目标检测(SFOD)方法依赖于Mean-Teacher自标记,但域迁移会降低检测器维持强目标聚焦表征的能力,导致背景杂乱区域出现高置信度激活。针对伪标签质量受限于特征空间的问题,FALCON-SFOD包含两个互补组件:SPAR(空间先验感知正则化),利用视觉基础模型的泛化能力正则化检测器的特征空间,通过OV-SAM生成的类别无关二值掩码,引导网络关注目标区域,促进结构化和前景聚焦的激活;IRPL(不平衡感知噪声鲁棒伪标签),在严重的前景-背景不平衡下,促进平衡和容错的学习。理论分析表明,这些设计能够收紧定位和分类误差界限,FALCON-SFOD在SFOD基准测试中取得了有竞争力的性能。

🔬 方法详解

问题定义:源域无关目标检测(SFOD)旨在解决目标检测模型在没有源域数据的情况下,适应新领域的问题。现有方法,特别是基于Mean-Teacher自标记的方法,在域迁移时会遇到困难,因为检测器难以维持对目标的清晰聚焦,导致背景噪声干扰,产生不可靠的伪标签。这些伪标签的质量直接影响了模型的训练效果,因此如何提升特征空间的目标聚焦能力是关键挑战。

核心思路:FALCON-SFOD的核心思路是利用视觉基础模型(Vision Foundation Model)的强大泛化能力,通过正则化检测器的特征空间,使其更好地关注目标区域,抑制背景噪声。同时,考虑到前景-背景不平衡问题,采用噪声鲁棒的伪标签策略,以提高训练的稳定性。

技术框架:FALCON-SFOD框架包含两个主要模块:SPAR(Spatial Prior-Aware Regularization)和IRPL(Imbalance-aware Noise Robust Pseudo-Labeling)。SPAR利用OV-SAM(Open Vocabulary SAM)生成的类别无关二值掩码,引导检测器关注目标区域,从而增强特征空间的目标聚焦能力。IRPL则通过不平衡感知的方式,生成更可靠的伪标签,以应对前景-背景不平衡带来的挑战。这两个模块相互补充,共同提升SFOD的性能。

关键创新:FALCON-SFOD的关键创新在于将视觉基础模型的先验知识引入到SFOD中,通过SPAR模块直接在特征空间层面增强目标聚焦能力。与以往主要关注伪标签精炼的方法不同,FALCON-SFOD从根本上解决了特征空间质量不高的问题,从而提高了伪标签的可靠性。

关键设计:SPAR模块的关键设计在于使用OV-SAM生成类别无关的二值掩码,这些掩码能够指示图像中的目标区域,从而引导检测器学习更具判别性的特征。IRPL模块的关键设计在于采用不平衡感知的损失函数,以平衡前景和背景样本的贡献,从而提高模型的鲁棒性。具体的损失函数和参数设置在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FALCON-SFOD在多个SFOD基准测试中取得了有竞争力的性能。具体的数据和提升幅度在论文中给出(未知),但总体而言,该方法能够有效地提高目标检测器在域迁移场景下的性能,证明了其有效性和实用性。

🎯 应用场景

FALCON-SFOD在许多实际应用中具有潜力,例如自动驾驶、智能监控、医学图像分析等领域。在这些领域中,数据分布可能发生变化,导致模型性能下降。FALCON-SFOD能够有效地适应新的领域,提高目标检测的准确性和鲁棒性,从而提升相关应用的智能化水平。

📄 摘要(原文)

Current state-of-the-art approaches in Source-Free Object Detection (SFOD) typically rely on Mean-Teacher self-labeling. However, domain shift often reduces the detector's ability to maintain strong object-focused representations, causing high-confidence activations over background clutter. This weak object focus results in unreliable pseudo-labels from the detection head. While prior works mainly refine these pseudo-labels, they overlook the underlying need to strengthen the feature space itself. We propose FALCON-SFOD (Foundation-Aligned Learning with Clutter suppression and Noise robustness), a framework designed to enhance object-focused adaptation under domain shift. It consists of two complementary components. SPAR (Spatial Prior-Aware Regularization) leverages the generalization strength of vision foundation models to regularize the detector's feature space. Using class-agnostic binary masks derived from OV-SAM, SPAR promotes structured and foreground-focused activations by guiding the network toward object regions. IRPL (Imbalance-aware Noise Robust Pseudo-Labeling) complements SPAR by promoting balanced and noise-tolerant learning under severe foreground-background imbalance. Guided by a theoretical analysis that connects these designs to tighter localization and classification error bounds, FALCON-SFOD achieves competitive performance across SFOD benchmarks.