Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection
作者: Bilal Faye, Hanane Azzag, Mustapha Lebbah
分类: cs.CV, cs.LG
发布日期: 2024-08-20 (更新: 2025-09-25)
💡 一句话要点
提出UniProj-Det,一种轻量级模块化参数高效的开放词汇目标检测框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 参数高效微调 视觉-语言模型 通用投影模块 模态对齐
📋 核心要点
- 现有开放词汇目标检测模型训练成本高昂,需要更新大型视觉-语言骨干网络的所有参数。
- UniProj-Det通过引入通用投影模块和可学习模态token,实现了视觉-语言的统一适配,同时冻结了预训练骨干网络。
- 实验表明,UniProj-Det仅训练少量参数,即可在多个任务上取得有竞争力的性能,并具有良好的效率。
📝 摘要(中文)
开放词汇目标检测(OVD)通过对齐视觉和文本特征,将识别范围扩展到固定的分类体系之外,如MDETR、GLIP或RegionCLIP。虽然这些模型有效,但需要更新大型视觉-语言骨干网络的所有参数,导致训练成本过高。最近受LoRA或适配器等参数高效微调方法启发的OVD方法,减少了可训练参数,但在选择要适配的层以及平衡效率和准确性方面面临挑战。我们提出了UniProj-Det,一个用于参数高效OVD的轻量级模块化框架。UniProj-Det冻结了预训练的骨干网络,并引入了一个带有可学习模态token的通用投影模块,以最小的成本实现统一的视觉-语言适配。应用于MDETR,我们的框架仅训练约2-5%的参数,同时在短语定位、指代表达式理解和分割方面实现了有竞争力或更优越的性能。对FLOPs、内存、延迟和消融研究的全面分析表明,UniProj-Det是朝着可扩展和高效的开放词汇检测迈出的重要一步。
🔬 方法详解
问题定义:开放词汇目标检测旨在识别图像中出现的任意物体,而不仅仅是预定义类别中的物体。现有方法通常需要微调整个视觉-语言模型,计算资源需求巨大,难以应用到资源受限的场景。参数高效微调方法虽然能减少训练参数,但在选择适配层和平衡效率与精度方面存在挑战。
核心思路:UniProj-Det的核心思路是冻结预训练的视觉-语言骨干网络,并引入一个轻量级的通用投影模块(Universal Projection module)来实现视觉和语言特征的对齐和交互。该模块通过可学习的模态token来区分视觉和语言信息,从而实现统一的适配。
技术框架:UniProj-Det框架主要包含以下几个部分:1) 预训练的视觉-语言骨干网络(例如,CLIP);2) 通用投影模块(UniProj),该模块包含一个可学习的模态token和线性投影层,用于将视觉和语言特征投影到统一的语义空间;3) 检测头,用于预测目标的位置和类别。训练过程中,只更新UniProj模块和检测头的参数,骨干网络参数保持不变。
关键创新:UniProj-Det的关键创新在于提出了通用投影模块,该模块通过可学习的模态token实现了视觉和语言特征的统一适配,避免了对整个骨干网络进行微调。这种方法显著减少了可训练参数的数量,提高了训练效率。
关键设计:UniProj模块包含一个可学习的模态token,该token与视觉和语言特征进行concat,然后通过线性投影层进行特征变换。损失函数采用标准的检测损失函数,例如,DETR的集合预测损失。实验中,UniProj模块的维度设置为骨干网络输出特征的维度。
🖼️ 关键图片
📊 实验亮点
UniProj-Det在MDETR上进行实验,仅训练约2-5%的参数,在短语定位、指代表达式理解和分割任务上取得了与全参数微调方法相当甚至更优越的性能。例如,在某些任务上,UniProj-Det的性能超过了全参数微调方法,同时显著降低了计算成本。
🎯 应用场景
UniProj-Det可应用于各种需要开放词汇目标检测的场景,例如智能安防、自动驾驶、图像搜索和机器人导航。该方法降低了模型训练和部署的成本,使得开放词汇目标检测技术能够更广泛地应用到资源受限的设备和场景中,具有重要的实际应用价值。
📄 摘要(原文)
Open-vocabulary object detection (OVD) extends recognition beyond fixed taxonomies by aligning visual and textual features, as in MDETR, GLIP, or RegionCLIP. While effective, these models require updating all parameters of large vision--language backbones, leading to prohibitive training cost. Recent efficient OVD approaches, inspired by parameter-efficient fine-tuning methods such as LoRA or adapters, reduce trainable parameters but often face challenges in selecting which layers to adapt and in balancing efficiency with accuracy. We propose UniProj-Det, a lightweight modular framework for parameter-efficient OVD. UniProj-Det freezes pretrained backbones and introduces a Universal Projection module with a learnable modality token, enabling unified vision--language adaptation at minimal cost. Applied to MDETR, our framework trains only about ~2-5% of parameters while achieving competitive or superior performance on phrase grounding, referring expression comprehension, and segmentation. Comprehensive analysis of FLOPs, memory, latency, and ablations demonstrates UniProj-Det as a principled step toward scalable and efficient open-vocabulary detection.