ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation

📄 arXiv: 2512.24224v1 📥 PDF

作者: Ziquan Liu, Zhewei Zhu, Xuyang Shi

分类: cs.CV

发布日期: 2025-12-30

备注: 10 pages, 4 figures


💡 一句话要点

提出ARM模块以解决CLIP基础的开放词汇语义分割问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇语义分割 CLIP 注意力机制 深度学习 无训练方法

📋 核心要点

  1. 现有的开放词汇语义分割方法受限于CLIP的图像级表示,缺乏细致的像素级信息,导致性能不足。
  2. 本文提出的注意力细化模块(ARM)通过自适应融合层次特征,利用深度特征选择和细化浅层特征,提升了语义分割的精度。
  3. 实验结果表明,ARM在多个基准测试中均显著提升了基线性能,且推理开销极小,验证了其有效性和高效性。

📝 摘要(中文)

开放词汇语义分割(OVSS)受到CLIP粗糙的图像级表示的限制,缺乏精确的像素级细节。现有的无训练方法通过引入外部基础模型的先验或应用静态的手工启发式方法来解决这一问题,但这些方法通常计算开销大或效果不佳。本文提出了一种轻量级的可学习模块——注意力细化模块(ARM),有效解锁并细化CLIP的内部潜力。ARM通过语义引导的交叉注意力块,自适应融合层次特征,并在多个基准测试中显著提升了基线性能,同时几乎没有推理开销,建立了一种高效的无训练OVSS新范式。

🔬 方法详解

问题定义:本文旨在解决开放词汇语义分割(OVSS)中CLIP模型的图像级表示无法提供精确像素级信息的问题。现有方法依赖于外部模型或静态启发式方法,导致计算开销大或效果不佳。

核心思路:ARM模块通过学习自适应地融合CLIP的层次特征,采用语义引导的交叉注意力机制,选择和细化细节丰富的浅层特征,从而提升分割精度。

技术框架:ARM的整体架构包括一个语义引导的交叉注意力块和一个自注意力块。首先,交叉注意力块利用深度特征(K, V)选择浅层特征(Q),然后通过自注意力块进一步细化特征。

关键创新:ARM的主要创新在于其“训练一次,随处使用”的范式,使其成为多种无训练框架的通用后处理器。这一设计显著区别于传统的静态融合方法。

关键设计:ARM在训练时使用通用数据集(如COCO-Stuff),并在多个基准测试中验证其有效性。其网络结构和损失函数经过精心设计,以确保在推理时的高效性和低开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个基准测试中,ARM模块显著提升了基线性能,具体表现为在某些任务上提升了超过10%的分割精度,同时保持了几乎无推理开销,验证了其高效性和有效性。

🎯 应用场景

该研究的潜在应用场景包括自动驾驶、医学影像分析和机器人视觉等领域。通过提升开放词汇语义分割的精度,ARM模块能够为这些领域提供更为精准的视觉理解和决策支持,具有重要的实际价值和未来影响。

📄 摘要(原文)

Open-vocabulary semantic segmentation (OVSS) is fundamentally hampered by the coarse, image-level representations of CLIP, which lack precise pixel-level details. Existing training-free methods attempt to resolve this by either importing priors from costly external foundation models (e.g., SAM, DINO) or by applying static, hand-crafted heuristics to CLIP's internal features. These approaches are either computationally expensive or sub-optimal. We propose the Attention Refinement Module (ARM), a lightweight, learnable module that effectively unlocks and refines CLIP's internal potential. Unlike static-fusion methods, ARM learns to adaptively fuse hierarchical features. It employs a semantically-guided cross-attention block, using robust deep features (K, V) to select and refine detail-rich shallow features (Q), followed by a self-attention block. The key innovation lies in a ``train once, use anywhere" paradigm. Trained once on a general-purpose dataset (e.g., COCO-Stuff), ARM acts as a universal plug-and-play post-processor for diverse training-free frameworks. Extensive experiments show that ARM consistently boosts baseline performance on multiple benchmarks with negligible inference overhead, establishing an efficient and effective paradigm for training-free OVSS.