Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation

📄 arXiv: 2405.18840v2 📥 PDF

作者: Zelin Peng, Zhengqin Xu, Zhilin Zeng, Yaoming Wang, Wei Shen

分类: cs.CV

发布日期: 2024-05-29 (更新: 2024-11-29)


💡 一句话要点

提出H-CLIP,一种在超球面空间进行参数高效微调的开放词汇语义分割方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇语义分割 参数高效微调 CLIP 超球面空间 视觉-语言模型 深度学习 计算机视觉

📋 核心要点

  1. 现有CLIP微调方法计算成本高,CLIP视觉和文本模态存在不一致,且泛化能力下降。
  2. 提出H-CLIP,一种在超球面空间进行对称参数高效微调的策略,缓解模态不一致,并保持泛化能力。
  3. 实验表明,H-CLIP在开放词汇语义分割任务上取得了SOTA结果,且仅需更新少量参数。

📝 摘要(中文)

开放词汇语义分割旨在用任意文本描述标记图像中的每个像素。视觉-语言基础模型,特别是CLIP,最近已成为获取开放词汇能力的强大工具。然而,微调CLIP以使其具备像素级预测能力通常会遇到三个问题:1) 计算成本高昂,2) CLIP两种固有模态之间的不一致,以及3) 在未见类别上的泛化能力下降。为了解决这些问题,我们提出了H-CLIP,一种对称的参数高效微调(PEFT)策略,在超球面空间中对CLIP的两种模态进行微调。具体而言,PEFT策略通过一系列高效的块对角可学习变换矩阵和所有可学习矩阵之间的双重交叉关系通信模块来实现。由于PEFT策略对称地应用于CLIP的两种模态,因此减轻了它们之间的不一致。此外,我们根据超球面能量原理对CLIP文本编码器的PEFT施加额外的约束,即在微调期间最小化超球面能量,以保持原始参数空间的内在结构,从而防止破坏CLIP文本编码器提供的泛化能力。在各种基准上的大量评估表明,H-CLIP实现了新的SOTA开放词汇语义分割结果,同时仅需要更新CLIP总参数的约4%。

🔬 方法详解

问题定义:开放词汇语义分割任务旨在根据任意文本描述对图像中的每个像素进行分类。现有的CLIP微调方法存在三个主要痛点:一是计算资源消耗大,完整微调CLIP参数量巨大;二是CLIP的视觉和文本模态之间存在固有的不一致性,直接微调可能加剧这种不一致;三是在未见过的类别上泛化能力下降,过度微调会破坏CLIP预训练获得的泛化能力。

核心思路:H-CLIP的核心思路是在超球面空间中进行参数高效微调(PEFT),并对称地应用于CLIP的视觉和文本模态。通过参数高效微调,降低计算成本;通过对称微调,缓解模态不一致;通过超球面能量约束,保持CLIP的泛化能力。

技术框架:H-CLIP的整体框架包括以下几个主要模块:1) CLIP视觉编码器和文本编码器;2) 一系列块对角可学习变换矩阵,用于对视觉和文本特征进行参数高效微调;3) 双重交叉关系通信模块,用于在可学习矩阵之间进行信息交互,增强特征表示能力;4) 超球面能量约束,用于约束文本编码器的微调过程。整个流程是:输入图像和文本描述,分别通过CLIP的视觉和文本编码器提取特征,然后通过可学习变换矩阵进行微调,并通过交叉关系通信模块进行信息交互,最后通过超球面能量约束保持泛化能力。

关键创新:H-CLIP的关键创新在于:1) 提出了一种对称的参数高效微调策略,同时应用于CLIP的视觉和文本模态,缓解了模态不一致问题;2) 在超球面空间中进行微调,并引入超球面能量约束,有效地保持了CLIP的泛化能力;3) 设计了块对角可学习变换矩阵和双重交叉关系通信模块,实现了高效的参数微调和特征表示。

关键设计:H-CLIP的关键设计包括:1) 块对角可学习变换矩阵:采用块对角结构,减少了可学习参数的数量,提高了微调效率;2) 双重交叉关系通信模块:通过在可学习矩阵之间进行信息交互,增强了特征表示能力;3) 超球面能量约束:通过最小化超球面能量,保持了CLIP的泛化能力。具体来说,超球面能量约束的损失函数形式未知,论文中可能没有详细给出。

🖼️ 关键图片

fig_0

📊 实验亮点

H-CLIP在多个开放词汇语义分割基准测试中取得了SOTA结果,同时仅需更新CLIP总参数的约4%。这表明H-CLIP在参数效率和性能方面都具有显著优势。具体的性能数据和对比基线在论文中进行了详细展示,证明了H-CLIP的有效性。

🎯 应用场景

H-CLIP在开放词汇语义分割领域具有广泛的应用前景,例如自动驾驶、遥感图像分析、医学图像诊断等。它可以帮助机器理解图像中的复杂场景,并根据任意文本描述进行像素级别的分割,从而实现更智能化的图像分析和理解。该研究的成果可以促进计算机视觉技术的发展,并为各行各业提供更强大的图像处理能力。

📄 摘要(原文)

Open-vocabulary semantic segmentation seeks to label each pixel in an image with arbitrary text descriptions. Vision-language foundation models, especially CLIP, have recently emerged as powerful tools for acquiring open-vocabulary capabilities. However, fine-tuning CLIP to equip it with pixel-level prediction ability often suffers three issues: 1) high computational cost, 2) misalignment between the two inherent modalities of CLIP, and 3) degraded generalization ability on unseen categories. To address these issues, we propose H-CLIP a symmetrical parameter-efficient fine-tuning (PEFT) strategy conducted in hyperspherical space for both of the two CLIP modalities. Specifically, the PEFT strategy is achieved by a series of efficient block-diagonal learnable transformation matrices and a dual cross-relation communication module among all learnable matrices. Since the PEFT strategy is conducted symmetrically to the two CLIP modalities, the misalignment between them is mitigated. Furthermore, we apply an additional constraint to PEFT on the CLIP text encoder according to the hyperspherical energy principle, i.e., minimizing hyperspherical energy during fine-tuning preserves the intrinsic structure of the original parameter space, to prevent the destruction of the generalization ability offered by the CLIP text encoder. Extensive evaluations across various benchmarks show that H-CLIP achieves new SOTA open-vocabulary semantic segmentation results while only requiring updating approximately 4% of the total parameters of CLIP.