ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection

📄 arXiv: 2603.12409v1 📥 PDF

作者: Mattia Bernardi, Chiara Cappellino, Matteo Mosconi, Enver Sangineto, Angelo Porrello, Simone Calderara

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

提出ABRA,解决开放词汇目标检测在跨域场景下的知识迁移问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 领域自适应 知识迁移 几何传输 权重空间对齐

📋 核心要点

  1. 开放词汇目标检测器(如Grounding DINO)在零样本场景表现出色,但在领域迁移时性能显著下降。
  2. ABRA的核心思想是将跨域知识迁移视为权重空间中的几何传输问题,通过对齐源域和目标域的专家知识实现迁移。
  3. 实验表明,ABRA在多种跨域场景下,能够有效迁移类别级别的知识,提升目标检测性能。

📝 摘要(中文)

本文提出了一种名为“对齐基座重定位自适应”(ABRA)的方法,用于在开放词汇目标检测中,将类别相关的检测知识从带标签的源域迁移到目标域,而目标域不包含这些类别的训练图像。ABRA将这种自适应过程建模为预训练检测器权重空间中的几何传输问题,通过对齐源域和目标域的专家知识来实现类别特定知识的迁移。在具有挑战性的跨域场景下进行的大量实验表明,ABRA能够成功地在多种不利条件下迁移类别级别的专业知识。代码将在接收后公开。

🔬 方法详解

问题定义:开放词汇目标检测器在领域迁移时性能显著下降,尤其是在缺乏目标域标注数据的情况下。现有方法难以有效地将源域的知识迁移到目标域,导致检测精度降低。该论文旨在解决在目标域无标注或标注数据稀缺的情况下,如何有效利用源域知识提升目标检测性能的问题。

核心思路:ABRA的核心思路是将源域和目标域的知识对齐问题转化为权重空间的几何传输问题。通过学习一个变换,将源域的检测器权重映射到目标域,从而实现知识的迁移。这种方法避免了直接在像素空间进行特征对齐,而是关注模型参数层面的对齐,更有效地保留了类别相关的知识。

技术框架:ABRA的整体框架包括以下几个主要步骤:1) 使用预训练的开放词汇目标检测器作为基础模型。2) 在源域上对基础模型进行微调,使其具备检测特定类别的能力。3) 学习一个对齐变换,将源域微调后的权重映射到目标域。4) 在目标域上使用映射后的权重初始化检测器,并进行微调或直接进行零样本检测。

关键创新:ABRA的关键创新在于将跨域知识迁移问题建模为权重空间的几何传输问题。通过学习一个对齐变换,将源域的知识直接迁移到目标域,避免了在像素空间进行复杂的特征对齐。这种方法能够更有效地保留类别相关的知识,并且适用于目标域无标注或标注数据稀缺的场景。

关键设计:ABRA的关键设计包括:1) 使用预训练的Grounding DINO作为基础检测器。2) 设计了一种基于线性变换的对齐模块,用于学习源域和目标域之间的权重映射关系。3) 使用对比学习损失函数来优化对齐模块,使得映射后的权重能够更好地适应目标域的数据分布。4) 实验中探索了不同的对齐策略和微调策略,以进一步提升目标检测性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ABRA在多个具有挑战性的跨域场景下,显著提升了开放词汇目标检测的性能。例如,在从白天场景迁移到夜间场景时,ABRA相比于直接使用预训练模型,AP指标提升了显著幅度。ABRA在目标域无标注的情况下,依然能够取得良好的检测效果。

🎯 应用场景

ABRA方法可应用于各种领域自适应场景,例如:夜间或雾天等恶劣天气下的目标检测,医学图像分析,以及机器人视觉等。该方法能够有效利用已有的标注数据,提升在无标注或少标注目标域的检测性能,降低数据标注成本,加速模型部署。

📄 摘要(原文)

Although recent Open-Vocabulary Object Detection architectures, such as Grounding DINO, demonstrate strong zero-shot capabilities, their performance degrades significantly under domain shifts. Moreover, many domains of practical interest, such as nighttime or foggy scenes, lack large annotated datasets, preventing direct fine-tuning. In this paper, we introduce Aligned Basis Relocation for Adaptation(ABRA), a method that transfers class-specific detection knowledge from a labeled source domain to a target domain where no training images containing these classes are accessible. ABRA formulates this adaptation as a geometric transport problem in the weight space of a pretrained detector, aligning source and target domain experts to transport class-specific knowledge. Extensive experiments across challenging domain shifts demonstrate that ABRA successfully teleports class-level specialization under multiple adverse conditions. Our code will be made public upon acceptance.