The Power of One: A Single Example is All it Takes for Segmentation in VLMs

📄 arXiv: 2503.10779v1 📥 PDF

作者: Mir Rayat Imtiaz Hossain, Mennatullah Siam, Leonid Sigal, James J. Little

分类: cs.CV

发布日期: 2025-03-13


💡 一句话要点

仅需单样本微调,显著提升视觉语言模型在分割任务中的性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 图像分割 单样本学习 微调 注意力机制

📋 核心要点

  1. 现有VLM分割方法依赖复杂的prompt工程和人工选择注意力层,缺乏效率和灵活性。
  2. 论文提出单样本微调策略,通过少量视觉示例显著提升VLM在分割任务中的性能。
  3. 通过熵值排序选择最优注意力层,无需分割标签,并验证了方法在多个VLM上的泛化性。

📝 摘要(中文)

大规模视觉语言模型(VLMs)在图像-文本对的大量数据集上训练,通过隐式学习文本描述和图像区域之间的关联,表现出强大的多模态理解能力。这种涌现的能力使得零样本目标检测和分割成为可能,这些技术依赖于文本-图像注意力图,而无需在大量的标记分割数据集上进行训练。然而,这些方法的性能在很大程度上取决于提示工程和手动选择注意力层的层或头。在这项工作中,我们证明,与其仅仅依赖于文本提示,不如为每个类别提供一个视觉示例,并对文本到图像的注意力层和嵌入进行微调,从而显著提高性能。此外,我们提出通过跨多个层和/或提示的少量样本微调来学习一个集成。提出了一种基于熵的文本到图像注意力层排序和选择机制,以识别性能最佳的层,而无需分割标签。这消除了文本到图像注意力层的超参数选择的需要,为开放词汇分割提供了一个更灵活和可扩展的解决方案。我们表明,这种方法产生了强大的零样本性能,并通过单个视觉示例的微调进一步增强。此外,我们证明了我们的方法和发现是通用的,可以应用于各种视觉语言模型(VLMs)。

🔬 方法详解

问题定义:现有基于视觉语言模型(VLM)的零样本分割方法,依赖于精心设计的文本提示(prompt engineering)和手动选择的注意力层,以提取文本和图像之间的关联。这种方式需要大量的人工干预,且性能不稳定,难以适应不同的场景和模型。痛点在于缺乏一种自动、高效且通用的方法来利用VLM进行精确的图像分割。

核心思路:论文的核心思路是利用少量(甚至单个)视觉示例来引导VLM学习更准确的分割。通过微调VLM中文本到图像的注意力层和嵌入,使模型能够更好地理解视觉概念,并将其与文本描述对齐。这种方法避免了复杂的prompt设计,并能有效提升分割性能。

技术框架:该方法主要包含以下几个阶段: 1. 单样本微调:为每个类别提供一个视觉示例,并使用该示例微调VLM的文本到图像注意力层和嵌入。 2. 集成学习:通过在多个层和/或提示上进行少量样本微调,学习一个集成模型,以提高鲁棒性和准确性。 3. 注意力层选择:提出一种基于熵的排序和选择机制,自动选择性能最佳的注意力层,无需分割标签。

关键创新:该方法最重要的创新点在于利用单样本微调来显著提升VLM的分割性能,并提出了一种自动选择注意力层的机制。与现有方法相比,该方法更加高效、灵活,且无需大量标注数据。

关键设计: 1. 微调策略:选择性地微调文本到图像的注意力层和嵌入,以避免过度拟合和灾难性遗忘。 2. 熵值排序:使用熵值来评估不同注意力层的性能,熵值越低,表示该层提取的特征越具有区分性。 3. 集成方法:通过集成多个层和/或提示的预测结果,提高分割的鲁棒性和准确性。具体集成方式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的单样本微调方法显著提升了VLM在分割任务中的性能。实验结果表明,该方法在多个VLM上均取得了良好的效果,并且优于现有的零样本分割方法。具体的性能数据和对比基线在论文中给出,但摘要中未明确提及具体的提升幅度。

🎯 应用场景

该研究成果可广泛应用于智能安防、自动驾驶、医学图像分析、遥感图像处理等领域。通过少量样本的微调,可以快速定制VLM以适应特定场景的分割需求,降低了对大量标注数据的依赖,具有重要的实际应用价值和商业潜力。未来,该方法有望进一步扩展到视频分割、3D场景理解等更复杂的任务中。

📄 摘要(原文)

Large-scale vision-language models (VLMs), trained on extensive datasets of image-text pairs, exhibit strong multimodal understanding capabilities by implicitly learning associations between textual descriptions and image regions. This emergent ability enables zero-shot object detection and segmentation, using techniques that rely on text-image attention maps, without necessarily training on abundant labeled segmentation datasets. However, performance of such methods depends heavily on prompt engineering and manually selected layers or head choices for the attention layers. In this work, we demonstrate that, rather than relying solely on textual prompts, providing a single visual example for each category and fine-tuning the text-to-image attention layers and embeddings significantly improves the performance. Additionally, we propose learning an ensemble through few-shot fine-tuning across multiple layers and/or prompts. An entropy-based ranking and selection mechanism for text-to-image attention layers is proposed to identify the top-performing layers without the need for segmentation labels. This eliminates the need for hyper-parameter selection of text-to-image attention layers, providing a more flexible and scalable solution for open-vocabulary segmentation. We show that this approach yields strong zero-shot performance, further enhanced through fine-tuning with a single visual example. Moreover, we demonstrate that our method and findings are general and can be applied across various vision-language models (VLMs).