On-the-Fly OVD Adaptation with FLAME: Few-shot Localization via Active Marginal-Samples Exploration
作者: Yehonathan Refael, Amit Aides, Aviad Barzilai, George Leifman, Genady Beryozkin, Vered Silverman, Bolous Jaber, Tomer Shekel
分类: cs.LG, cs.AI, cs.IR
发布日期: 2025-10-20 (更新: 2025-10-30)
期刊: AAAI 2026 Workshop AI4ES
💡 一句话要点
提出FLAME框架,通过主动边缘样本探索实现开放词汇目标检测的快速领域自适应。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇目标检测 少样本学习 主动学习 遥感图像 领域自适应
📋 核心要点
- 开放词汇目标检测在特定领域,如遥感图像中,由于自然语言的模糊性,零样本性能不佳,限制了实际应用。
- 提出FLAME框架,结合预训练OVD模型和轻量级少样本分类器,通过主动学习选择信息量大的样本进行实时训练。
- FLAME在遥感基准测试中超越了现有技术,实现了快速且资源高效的领域自适应,显著提升了目标检测精度。
📝 摘要(中文)
开放词汇目标检测(OVD)模型通过检测任意文本查询中的对象提供了卓越的灵活性。然而,由于自然语言固有的模糊性,它们在遥感(RS)等专门领域的零样本性能常常受到影响,限制了关键的下游应用。例如,OVD模型可能难以区分“渔船”和“游艇”等细粒度类别,因为它们的嵌入相似且通常不可分离。为了解决这个问题,我们提出了一种级联方法,将大型预训练OVD模型的广泛泛化能力与轻量级的少样本分类器相结合。我们的方法首先采用零样本模型生成高召回率的对象提议。然后,通过一个紧凑的分类器实时地对这些提议进行精炼,该分类器仅在少量的用户标注示例上进行训练,从而大大降低了RS图像标注的高成本。我们框架的核心是FLAME,一种单步主动学习策略,用于选择最具信息量的训练样本。FLAME使用密度估计动态地识别决策边界附近的不确定边缘候选样本,然后进行聚类以确保样本多样性。这种高效的采样技术无需昂贵的完整模型微调即可实现高精度,并可在不到一分钟的时间内实现即时自适应,这比最先进的替代方案快得多。我们的方法在RS基准测试中始终超越了最先进的性能,从而建立了一个实用且资源高效的框架,用于将基础模型调整到特定的用户需求。
🔬 方法详解
问题定义:论文旨在解决开放词汇目标检测模型在特定领域(如遥感图像)中,由于自然语言的模糊性导致的零样本性能下降问题。现有方法要么依赖大量标注数据进行微调,成本高昂;要么零样本效果不佳,无法满足实际应用需求。
核心思路:论文的核心思路是结合预训练的开放词汇目标检测模型和轻量级的少样本分类器,利用预训练模型的泛化能力生成候选区域,然后通过少量标注数据训练分类器进行精细化识别。关键在于如何高效地选择最具信息量的样本进行训练,以最小的标注代价获得最佳的性能提升。
技术框架:该方法采用级联框架。首先,使用预训练的开放词汇目标检测模型生成候选目标区域(proposal generation)。然后,利用FLAME主动学习策略选择最具信息量的样本进行标注。接着,使用标注数据训练一个轻量级的少样本分类器。最后,使用训练好的分类器对候选区域进行精细化分类,得到最终的检测结果。
关键创新:FLAME(Few-shot Localization via Active Marginal-Samples Exploration)是该方法的核心创新。它是一种单步主动学习策略,通过密度估计识别决策边界附近的不确定样本,并使用聚类保证样本的多样性。与传统的随机采样或基于不确定性的采样方法相比,FLAME能够更有效地选择最具信息量的样本,从而加速模型收敛并提高性能。
关键设计:FLAME的关键设计包括:1) 使用密度估计(如高斯混合模型)来估计样本的不确定性,选择决策边界附近的样本;2) 使用聚类算法(如K-means)对不确定样本进行聚类,保证选择的样本具有代表性和多样性;3) 采用单步主动学习策略,避免了迭代选择和训练的复杂性,实现了快速自适应。
🖼️ 关键图片
📊 实验亮点
论文提出的FLAME框架在遥感图像目标检测基准测试中取得了显著的性能提升,超越了现有最先进的方法。该方法能够在不到一分钟的时间内完成领域自适应,并且仅需少量标注样本即可达到较高的检测精度,极大地降低了标注成本,提高了效率。
🎯 应用场景
该研究成果可广泛应用于遥感图像分析、智能安防、工业质检等领域。例如,可以用于监测非法捕鱼、识别特定类型的建筑物、检测产品缺陷等。通过快速适应特定领域的需求,降低标注成本,提高目标检测的准确性和效率,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
Open-vocabulary object detection (OVD) models offer remarkable flexibility by detecting objects from arbitrary text queries. However, their zero-shot performance in specialized domains like Remote Sensing (RS) is often compromised by the inherent ambiguity of natural language, limiting critical downstream applications. For instance, an OVD model may struggle to distinguish between fine-grained classes such as "fishing boat" and "yacht" since their embeddings are similar and often inseparable. This can hamper specific user goals, such as monitoring illegal fishing, by producing irrelevant detections. To address this, we propose a cascaded approach that couples the broad generalization of a large pre-trained OVD model with a lightweight few-shot classifier. Our method first employs the zero-shot model to generate high-recall object proposals. These proposals are then refined for high precision by a compact classifier trained in real-time on only a handful of user-annotated examples - drastically reducing the high costs of RS imagery annotation.The core of our framework is FLAME, a one-step active learning strategy that selects the most informative samples for training. FLAME identifies, on the fly, uncertain marginal candidates near the decision boundary using density estimation, followed by clustering to ensure sample diversity. This efficient sampling technique achieves high accuracy without costly full-model fine-tuning and enables instant adaptation, within less then a minute, which is significantly faster than state-of-the-art alternatives.Our method consistently surpasses state-of-the-art performance on RS benchmarks, establishing a practical and resource-efficient framework for adapting foundation models to specific user needs.