Prompting without Panic: Attribute-aware, Zero-shot, Test-Time Calibration

📄 arXiv: 2506.22819v1 📥 PDF

作者: Ramya Hebbalaguppe, Tamoghno Kandar, Abhinav Nagpal, Chetan Arora

分类: cs.CV, cs.LG

发布日期: 2025-06-28

备注: 26 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出属性感知零样本测试时校准方法,解决VLM测试时微调的置信度校准问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 测试时提示调整 置信度校准 大型语言模型 零样本学习

📋 核心要点

  1. 现有测试时提示调整(TPT)方法在提升视觉-语言模型(VLM)准确率的同时,往往忽略了置信度校准,导致模型在实际应用中可靠性降低。
  2. 论文提出一种属性感知的测试时校准方法,通过利用大型语言模型(LLM)的知识来初始化提示,并引入正则化损失来优化提示,从而改善校准。
  3. 实验结果表明,该方法在多个数据集和CLIP架构上显著降低了预期校准误差(ECE),优于现有的TPT方法,提升了模型校准性能。

📝 摘要(中文)

视觉-语言模型(VLM)通过在大数据集上进行自监督训练,在图像识别方面表现出令人印象深刻的性能。通过使用测试时提示调整(TPT)来适应测试样本,可以进一步提高其性能。然而,TPT方法过于关注提高准确性,导致置信度校准的退化,限制了TPT在关键应用中的适用性。本文提出了三点贡献:(1) 认为提示的随机或朴素初始化导致在特定测试样本上的过拟合,是TPT后VLM校准不良的主要原因。为了缓解这个问题,我们建议使用来自大型语言模型(LLM)的目标标签属性的先验知识来仔细初始化测试时提示;(2) 为了进一步保持TPT期间提示的质量,我们提出了一种新的正则化损失,以减少类内距离,并增加学习到的类间距离。通过在不同的CLIP架构和15个数据集上进行的大量实验,我们表明我们的方法可以有效地提高TPT后的校准。我们的方法TCA的平均预期校准误差(ECE)为4.11,而vanilla TPT为11.7,C-TPT (ICLR'24)为6.12,DiffTPT (CVPR'23)为6.78,PromptAlign (NeurIPS'23)为8.43。代码已公开发布在https://github.com/rhebbalaguppe/TCA_PromptWithoutPanic。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)在测试时提示调整(TPT)后出现的置信度校准问题。现有TPT方法虽然能提高模型准确率,但由于过度拟合单个测试样本,导致模型输出概率的置信度与实际准确率不匹配,即校准不良。这限制了VLM在需要可靠概率输出的实际应用中的应用。

核心思路:论文的核心思路是利用大型语言模型(LLM)的先验知识来指导测试时提示的初始化,并引入正则化损失来约束提示的学习过程。通过LLM获取目标标签的属性信息,用于初始化提示,避免随机初始化带来的过拟合风险。同时,正则化损失鼓励类内提示更加接近,类间提示更加远离,从而提高模型的泛化能力和校准性能。

技术框架:该方法主要包含两个阶段:(1) 属性感知提示初始化:使用LLM获取目标类别标签的属性描述,并将其嵌入到提示向量中,作为TPT的初始值。(2) 正则化测试时提示调整:在标准TPT的基础上,引入正则化损失,该损失函数包含两部分:一是减少类内提示的距离,二是增加类间提示的距离。通过优化目标函数,学习到既能提高准确率,又能保持良好校准的提示。

关键创新:该方法最重要的技术创新在于将LLM的知识引入到测试时提示调整中,并设计了专门的正则化损失函数来约束提示的学习。与传统的TPT方法相比,该方法不再依赖随机初始化,而是利用LLM的语义信息来指导提示的生成,从而避免了过拟合问题,提高了模型的校准性能。此外,正则化损失的设计也有效地提升了提示的泛化能力。

关键设计:关键设计包括:(1) 使用LLM (例如GPT-3)生成每个类别标签的属性描述,例如“猫”的属性可以是“毛茸茸的”、“有胡须的”等。然后将这些属性描述嵌入到向量空间中,作为提示的初始值。(2) 正则化损失函数的设计:损失函数包含两项,一项是类内距离损失,鼓励同一类别的不同提示向量彼此接近;另一项是类间距离损失,鼓励不同类别的提示向量彼此远离。损失函数的权重需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在15个不同的数据集和多种CLIP架构上均取得了显著的校准性能提升。例如,在平均预期校准误差(ECE)指标上,该方法(TCA)达到了4.11,显著优于vanilla TPT (11.7)、C-TPT (6.12)、DiffTPT (6.78)和PromptAlign (8.43)。这些结果表明,该方法能够有效地提高VLM在测试时调整后的校准性能。

🎯 应用场景

该研究成果可应用于任何需要高置信度预测的视觉-语言模型应用场景,例如医疗图像诊断、自动驾驶、安全监控等。通过提高模型的校准性能,可以提升决策的可靠性,降低误判风险,从而在实际应用中发挥更大的价值。未来,该方法可以进一步扩展到其他类型的模型和任务中,例如自然语言处理和多模态学习。

📄 摘要(原文)

Vision-language models (VLM) have demonstrated impressive performance in image recognition by leveraging self-supervised training on large datasets. Their performance can be further improved by adapting to the test sample using test-time prompt tuning (TPT). Unfortunately, the singular focus of TPT approaches on improving the accuracy suffers from tunnel vision, and leads to degradation in confidence calibration. This limits the applicability of TPT in critical applications. We make three contributions in this work. (1) We posit that random or naive initialization of prompts leads to overfitting on a particular test sample, and is the main reason for miscalibration of the VLM after TPT. To mitigate the problem, we propose careful initialization of test time prompt using prior knowledge about the target label attributes from a large language model (LLM); (2) To further maintain the quality of prompts during \tpt, we propose a novel regularization loss to reduce intraclass distance, and increase inter-class distance between the learnt Through extensive experiments on different CLIP architectures and 15 datasets, we show that our approach can effectively improve the calibration after TPT. We report an average expected calibration error (ECE) of 4.11 with our method, TCA, compared to 11.7 for vanilla TPT, 6.12 for C-TPT (ICLR'24), 6.78 for DiffTPT (CVPR'23), and 8.43 for PromptAlign (NeurIPS'23). The code is publicly accessible at: https://github.com/rhebbalaguppe/TCA_PromptWithoutPanic.