Contrast-Aware Calibration for Fine-Tuned CLIP: Leveraging Image-Text Alignment

作者: Song-Lin Lv, Yu-Yang Chen, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

分类: cs.CV, cs.LG

发布日期: 2025-01-31 (更新: 2025-02-05)

💡 一句话要点

提出对比感知校准(CAC)，提升微调CLIP在开放词汇分类中的置信度校准。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对比学习 置信度校准 CLIP 视觉语言模型 开放词汇分类

📋 核心要点

微调CLIP在开放词汇分类中易过拟合训练集，导致未见类别置信度与准确率不匹配。
提出对比感知校准(CAC)，利用原始CLIP与微调CLIP的对比差异计算校准权重。
实验表明，CAC在多个数据集和微调方法下，提升了训练集和未见集的校准效果，且不影响精度。

📝 摘要（中文）

视觉-语言模型(VLM)，如CLIP，展现了卓越的泛化能力，并能通过prompt微调快速适应下游任务。然而，在涉及非训练类别的分类任务（即开放词汇设置）中，微调后的VLM常常过度拟合训练类别，导致置信度分数与未见类别的实际准确率不一致，严重影响了它们在实际应用中的可靠性。现有的置信度校准方法通常需要训练参数或分析来自训练数据集的特征，限制了它们在没有相应训练数据的情况下泛化到未见类别的能力。此外，特定于VLM的校准方法仅依赖于来自训练类别的文本特征作为校准指标，这固有地限制了它们校准训练类别的能力。为了解决这些挑战，我们提出了一种有效的多模态校准方法，即对比感知校准(CAC)。基于原始CLIP的零样本适应性和对未见类别缺乏类内和类间区分能力的根本原因的实证分析结论，我们基于原始CLIP和微调后的CLIP之间的对比差异来计算校准权重。该方法不仅适用于校准未见类别，而且克服了以前VLM校准方法无法校准训练类别的局限性。在涉及11个数据集和5种微调方法的实验中，CAC始终在训练和未见类别上实现了最佳校准效果，且不牺牲准确性和推理速度。

🔬 方法详解

问题定义：论文旨在解决微调后的CLIP模型在开放词汇分类任务中，对未见类别置信度校准不准确的问题。现有方法要么依赖训练数据，无法泛化到未见类别；要么仅利用文本信息，无法有效校准训练类别。这些问题限制了微调CLIP在实际应用中的可靠性。

核心思路：论文的核心思路是利用原始CLIP模型和微调后的CLIP模型之间的对比差异来指导置信度校准。作者认为，微调导致模型对训练类别过拟合，从而影响了对未见类别的区分能力。通过对比两个模型的输出，可以估计出微调对不同类别的置信度影响，进而进行校准。

技术框架：整体框架包括以下步骤：1) 使用原始CLIP和微调后的CLIP分别对图像进行编码，得到图像特征；2) 使用文本编码器对所有类别（包括训练和未见类别）进行编码，得到文本特征；3) 计算原始CLIP和微调后CLIP的图像-文本相似度矩阵；4) 基于两个相似度矩阵的对比差异，计算每个类别的校准权重；5) 使用校准权重调整微调后CLIP的置信度分数。

关键创新：论文的关键创新在于提出了基于对比差异的校准方法。与现有方法相比，该方法不需要额外的训练数据，并且可以同时校准训练和未见类别。此外，该方法利用了多模态信息（图像和文本），能够更准确地估计微调对置信度的影响。

关键设计：校准权重的计算是关键。具体来说，作者计算了原始CLIP和微调后CLIP的相似度矩阵之间的差值，并对该差值进行归一化，得到每个类别的校准权重。此外，作者还设计了一种平滑策略，以避免校准权重过大或过小，从而提高校准的稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CAC方法在11个数据集和5种微调方法下，均取得了最佳的校准效果。例如，在某些数据集上，CAC可以将Expected Calibration Error (ECE) 降低 50% 以上，同时保持甚至略微提升了分类准确率。此外，CAC方法没有引入额外的计算负担，保持了原有的推理速度。

🎯 应用场景

该研究成果可应用于各种需要开放词汇分类的场景，例如图像检索、零样本图像分类、视觉问答等。通过提高微调CLIP模型的置信度校准，可以提升其在实际应用中的可靠性和性能，尤其是在处理未见类别时。该方法具有较强的通用性和可扩展性，可以方便地集成到现有的CLIP微调流程中。

📄 摘要（原文）

Vision-language models (VLMs), such as CLIP, have demonstrated exceptional generalization capabilities and can quickly adapt to downstream tasks through prompt fine-tuning. Unfortunately, in classification tasks involving non-training classes, known as open-vocabulary setting, fine-tuned VLMs often overfit to train classes, resulting in a misalignment between confidence scores and actual accuracy on unseen classes, which significantly undermines their reliability in real-world deployments. Existing confidence calibration methods typically require training parameters or analyzing features from the training dataset, restricting their ability to generalize unseen classes without corresponding train data. Moreover, VLM-specific calibration methods rely solely on text features from train classes as calibration indicators, which inherently limits their ability to calibrate train classes. To address these challenges, we propose an effective multimodal calibration method Contrast-Aware Calibration (CAC). Building on the original CLIP's zero-shot adaptability and the conclusion from empirical analysis that poor intra-class and inter-class discriminative ability on unseen classes is the root cause, we calculate calibration weights based on the contrastive difference between the original and fine-tuned CLIP. This method not only adapts to calibrating unseen classes but also overcomes the limitations of previous VLM calibration methods that could not calibrate train classes. In experiments involving 11 datasets with 5 fine-tuning methods, CAC consistently achieved the best calibration effect on both train and unseen classes without sacrificing accuracy and inference speed.

Contrast-Aware Calibration for Fine-Tuned CLIP: Leveraging Image-Text Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理