Conformal Prediction for Zero-Shot Models

作者: Julio Silva-Rodríguez, Ismail Ben Ayed, Jose Dolz

分类: cs.CV

发布日期: 2025-05-30

备注: CVPR 2025. Code: https://github.com/jusiro/CLIP-Conformal

💡 一句话要点

提出Conf-OT，提升零样本模型在领域漂移下的Conformal Prediction效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Conformal Prediction 零样本学习 领域自适应 最优传输 视觉-语言模型

📋 核心要点

现有Conformal Prediction方法在零样本模型中，受预训练和下游任务间领域漂移影响，效率降低。
提出Conf-OT方法，通过最优传输在校准集和查询集上进行转导学习，弥合领域差距。
实验表明，Conf-OT在集合效率上提升高达20%，且速度比现有转导方法快15倍。

📝 摘要（中文）

大规模预训练的视觉-语言模型展现了前所未有的适应性和泛化能力。尽管其判别潜力已被广泛探索，但其可靠性和不确定性仍被忽视。本文研究了CLIP模型在split conformal prediction范式下的能力，该范式基于一个小的、带标签的校准集为黑盒模型提供理论保证。与视觉分类器中conformal predictors的主要文献不同，基础模型表现出一个特殊的特征：它们是在一个不可访问的源域上一次性预训练的，这与迁移的任务不同。这种领域漂移对conformal sets的效率产生负面影响，并带来额外的挑战。为了缓解这个问题，我们提出了Conf-OT，一种在组合的校准集和查询集上进行转导学习的设置。通过解决一个最优传输问题，所提出的方法弥合了预训练和适应之间的领域差距，而不需要额外的数据分割，同时仍然保持覆盖保证。我们在15个数据集和三种非一致性评分上全面探索了这种conformal prediction策略。Conf-OT在集合效率方面提供了高达20%的一致相对改进，同时比流行的转导方法快15倍。

🔬 方法详解

问题定义：论文旨在解决零样本模型（如CLIP）在进行Conformal Prediction时，由于预训练数据和下游任务数据存在领域漂移，导致预测集合效率降低的问题。现有的Conformal Prediction方法通常假设校准集和测试集来自同一分布，但在零样本学习中，模型是在一个不可访问的源域上预训练的，这使得这一假设不再成立，从而影响了预测的准确性和效率。

核心思路：论文的核心思路是利用最优传输（Optimal Transport, OT）来对齐校准集和查询集的数据分布，从而缓解领域漂移带来的影响。通过在校准集和查询集上进行转导学习，Conf-OT能够学习到一个更适应目标任务的数据表示，从而提高Conformal Prediction的效率。这种方法不需要额外的数据分割，并且能够保持覆盖保证。

技术框架：Conf-OT的技术框架主要包含以下几个步骤：1) 使用预训练的视觉-语言模型（如CLIP）提取校准集和查询集的特征；2) 构建一个最优传输问题，目标是找到一个从校准集到查询集的最佳映射，使得校准集中的样本能够更好地代表查询集中的样本；3) 使用最优传输得到的映射关系，对校准集进行加权，从而得到一个更适应目标任务的校准集；4) 使用加权后的校准集进行Conformal Prediction，得到预测集合。

关键创新：Conf-OT的关键创新在于将最优传输引入到零样本模型的Conformal Prediction中，从而有效地缓解了领域漂移带来的影响。与现有的Conformal Prediction方法相比，Conf-OT不需要额外的数据分割，并且能够保持覆盖保证。此外，Conf-OT还提出了一种新的转导学习设置，该设置能够同时利用校准集和查询集的信息，从而提高预测的准确性和效率。

关键设计：Conf-OT的关键设计包括：1) 使用Sinkhorn算法求解最优传输问题，该算法具有良好的计算效率；2) 使用一种基于距离的非一致性评分函数，该函数能够衡量样本与预测集合之间的差异；3) 使用一种自适应的权重调整策略，该策略能够根据校准集和查询集之间的相似度，自动调整校准集的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Conf-OT在15个数据集上，相对于现有的Conformal Prediction方法，在集合效率方面提供了高达20%的一致相对改进。同时，Conf-OT的计算速度比流行的转导方法快15倍。这些结果表明，Conf-OT是一种高效且有效的零样本模型Conformal Prediction方法。

🎯 应用场景

该研究成果可应用于各种需要可靠性和不确定性估计的零样本学习场景，例如：医疗诊断、自动驾驶、金融风控等。通过提供带有置信区间的预测结果，可以帮助决策者更好地理解模型的预测，并做出更明智的决策。此外，该方法还可以用于提高模型的鲁棒性和泛化能力。

📄 摘要（原文）

Vision-language models pre-trained at large scale have shown unprecedented adaptability and generalization to downstream tasks. Although its discriminative potential has been widely explored, its reliability and uncertainty are still overlooked. In this work, we investigate the capabilities of CLIP models under the split conformal prediction paradigm, which provides theoretical guarantees to black-box models based on a small, labeled calibration set. In contrast to the main body of literature on conformal predictors in vision classifiers, foundation models exhibit a particular characteristic: they are pre-trained on a one-time basis on an inaccessible source domain, different from the transferred task. This domain drift negatively affects the efficiency of the conformal sets and poses additional challenges. To alleviate this issue, we propose Conf-OT, a transfer learning setting that operates transductive over the combined calibration and query sets. Solving an optimal transport problem, the proposed method bridges the domain gap between pre-training and adaptation without requiring additional data splits but still maintaining coverage guarantees. We comprehensively explore this conformal prediction strategy on a broad span of 15 datasets and three non-conformity scores. Conf-OT provides consistent relative improvements of up to 20% on set efficiency while being 15 times faster than popular transductive approaches.

Conformal Prediction for Zero-Shot Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理