Post-pre-training for Modality Alignment in Vision-Language Foundation Models

📄 arXiv: 2504.12717v1 📥 PDF

作者: Shin'ya Yamaguchi, Dewei Feng, Sekitoshi Kanai, Kazuki Adachi, Daiki Chijiwa

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-04-17

备注: Accepted to CVPR 2025; Code: https://github.com/yshinya6/clip-refine


💡 一句话要点

提出CLIP-Refine,通过后预训练对齐视觉-语言模型中的模态特征空间

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 模态对齐 后预训练 零样本学习 对比学习 知识蒸馏 特征对齐

📋 核心要点

  1. 现有CLIP模型存在图像和文本特征空间不对齐的模态差距,限制了下游任务的零样本性能。
  2. CLIP-Refine通过随机特征对齐(RaFA)和混合对比-蒸馏(HyCD)在后预训练阶段对齐特征空间。
  3. 实验表明,CLIP-Refine在多个分类和检索任务中成功缓解了模态差距,提高了零样本性能。

📝 摘要(中文)

对比语言图像预训练(CLIP)是构建现代视觉-语言基础模型的关键组成部分。尽管CLIP在下游任务上表现出卓越的零样本性能,但多模态特征空间仍然存在模态差距,即图像和文本特征簇之间的差距,这限制了下游任务的性能。现有工作试图通过修改预训练或微调来解决模态差距,但它们面临着大数据集带来的巨大训练成本或零样本性能的下降。本文提出了CLIP-Refine,一种CLIP模型的后预训练方法,位于预训练和微调之间。CLIP-Refine旨在通过在小型图像-文本数据集上进行1个epoch的训练来对齐特征空间,且不降低零样本性能。为此,我们引入了两种技术:随机特征对齐(RaFA)和混合对比-蒸馏(HyCD)。RaFA通过最小化与从先验分布中采样的随机参考向量的距离,使图像和文本特征遵循共享的先验分布。HyCD使用混合软标签更新模型,这些标签结合了ground-truth图像-文本对标签和预训练CLIP模型的输出。这有助于实现既保持过去的知识,又学习新的知识以对齐特征。我们通过多个分类和检索任务进行的大量实验表明,CLIP-Refine成功地缓解了模态差距并提高了零样本性能。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(特别是CLIP模型)中存在的模态差距问题。现有方法通常需要大量的计算资源进行预训练或微调,或者会导致零样本性能的下降。因此,如何在低成本的情况下对齐图像和文本特征空间,同时保持甚至提升零样本性能,是本文要解决的关键问题。

核心思路:论文的核心思路是在预训练的CLIP模型之后,增加一个轻量级的后预训练阶段。通过在这个阶段引入随机特征对齐(RaFA)和混合对比-蒸馏(HyCD)两种技术,来对齐图像和文本特征空间。这样可以在不大幅增加计算成本的情况下,有效地缓解模态差距。

技术框架:CLIP-Refine的整体框架包含三个阶段:预训练阶段(使用标准的CLIP模型)、后预训练阶段(CLIP-Refine)和下游任务评估阶段。CLIP-Refine阶段是核心,它使用RaFA和HyCD两种技术来更新预训练的CLIP模型。RaFA通过将图像和文本特征与随机参考向量对齐来缩小模态差距,HyCD则利用混合软标签来保持模型的知识并学习新的对齐信息。

关键创新:论文的关键创新在于提出了RaFA和HyCD两种技术。RaFA通过引入随机参考向量,避免了直接对齐图像和文本特征可能导致的过拟合问题。HyCD则通过结合ground-truth标签和预训练模型的输出,实现了知识保持和知识学习的平衡。这两种技术的结合使得CLIP-Refine能够在低成本的情况下有效地对齐特征空间。

关键设计:RaFA的关键设计在于随机参考向量的采样方式。论文中提到,这些向量是从一个先验分布中采样的,具体分布的选择可能影响最终的对齐效果。HyCD的关键设计在于混合软标签的生成方式,需要仔细调整ground-truth标签和预训练模型输出的权重,以达到最佳的知识平衡效果。损失函数的设计也至关重要,需要同时考虑对齐损失和知识保持损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLIP-Refine在多个分类和检索任务上都取得了显著的性能提升。例如,在某些零样本分类任务上,CLIP-Refine的性能超过了直接使用预训练CLIP模型的结果。此外,CLIP-Refine仅需要少量数据和1个epoch的训练,大大降低了训练成本,同时避免了零样本性能的下降。

🎯 应用场景

CLIP-Refine可应用于各种需要视觉-语言理解的场景,例如图像检索、零样本图像分类、视觉问答等。该方法降低了对大规模数据集和高昂计算资源的需求,使得在资源受限的环境中也能有效利用视觉-语言模型。未来,该方法可以进一步扩展到其他多模态任务中,例如视频理解、语音识别等。

📄 摘要(原文)

Contrastive language image pre-training (CLIP) is an essential component of building modern vision-language foundation models. While CLIP demonstrates remarkable zero-shot performance on downstream tasks, the multi-modal feature spaces still suffer from a modality gap, which is a gap between image and text feature clusters and limits downstream task performance. Although existing works attempt to address the modality gap by modifying pre-training or fine-tuning, they struggle with heavy training costs with large datasets or degradations of zero-shot performance. This paper presents CLIP-Refine, a post-pre-training method for CLIP models at a phase between pre-training and fine-tuning. CLIP-Refine aims to align the feature space with 1 epoch training on small image-text datasets without zero-shot performance degradations. To this end, we introduce two techniques: random feature alignment (RaFA) and hybrid contrastive-distillation (HyCD). RaFA aligns the image and text features to follow a shared prior distribution by minimizing the distance to random reference vectors sampled from the prior. HyCD updates the model with hybrid soft labels generated by combining ground-truth image-text pair labels and outputs from the pre-trained CLIP model. This contributes to achieving both maintaining the past knowledge and learning new knowledge to align features. Our extensive experiments with multiple classification and retrieval tasks show that CLIP-Refine succeeds in mitigating the modality gap and improving the zero-shot performance.