Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models

📄 arXiv: 2505.20236v1 📥 PDF

作者: Weihao Xuan, Qingcheng Zeng, Heli Qi, Junjue Wang, Naoto Yokoya

分类: cs.CV

发布日期: 2025-05-26


💡 一句话要点

分析视觉-语言模型中置信度校准问题,提出视觉置信度感知提示方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 置信度校准 不确定性量化 多模态学习 视觉推理

📋 核心要点

  1. 现有视觉-语言模型在不确定性量化方面存在不足,尤其是在置信度校准方面,影响了模型的可信度。
  2. 论文提出视觉置信度感知提示方法,通过两阶段提示策略,提升多模态场景下置信度与实际准确率的对齐程度。
  3. 实验结果表明,视觉推理模型具有更好的校准性,证明了模态特定推理对可靠不确定性估计的重要性。

📝 摘要(中文)

不确定性量化对于评估现代人工智能系统的可靠性和可信度至关重要。在现有方法中,语言化的不确定性,即模型通过自然语言表达其置信度,已成为大型语言模型(LLM)中一种轻量级且可解释的解决方案。然而,它在视觉-语言模型(VLM)中的有效性尚未得到充分研究。本文对VLM中语言化置信度进行了全面评估,涵盖了三种模型类别、四个任务领域和三种评估场景。结果表明,当前的VLM在不同的任务和设置中通常表现出显著的校准误差。值得注意的是,视觉推理模型(即使用图像进行思考)始终表现出更好的校准,表明特定模态的推理对于可靠的不确定性估计至关重要。为了进一步解决校准挑战,我们引入了视觉置信度感知提示(Visual Confidence-Aware Prompting),这是一种两阶段提示策略,可提高多模态设置中的置信度对齐。总的来说,我们的研究强调了VLM在跨模态方面固有的校准误差。更广泛地说,我们的发现强调了模态对齐和模型忠实性在推进可靠的多模态系统中的根本重要性。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)中置信度校准不佳的问题。现有的VLM在生成答案的同时,通常无法准确地表达其置信度,导致用户难以判断模型预测的可靠性。这种不确定性量化的不足限制了VLM在安全敏感场景中的应用。

核心思路:论文的核心思路是,通过引入视觉置信度感知提示(Visual Confidence-Aware Prompting),显式地引导VLM更好地校准其置信度。该方法的核心在于利用视觉信息来辅助置信度估计,并采用两阶段的提示策略来优化置信度表达。

技术框架:该方法主要包含两个阶段:第一阶段,利用VLM生成初步的答案和置信度估计;第二阶段,基于第一阶段的结果,结合视觉信息,使用特定的提示语来重新评估和校准置信度。整体流程旨在提高置信度与实际预测准确率之间的一致性。

关键创新:该方法的关键创新在于视觉置信度感知提示,它将视觉信息显式地融入到置信度估计过程中。与传统的仅依赖语言信息的置信度估计方法不同,该方法充分利用了视觉模态的推理能力,从而提高了置信度估计的准确性。

关键设计:Visual Confidence-Aware Prompting 包含两个关键设计:1) 使用特定的提示语来引导VLM生成置信度,例如询问模型“你有多确定?”;2) 设计两阶段的提示策略,第一阶段生成初步答案和置信度,第二阶段基于视觉信息校准置信度。具体参数设置和损失函数未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,视觉推理模型在置信度校准方面表现更好,这突显了视觉信息在提高置信度估计准确性方面的作用。通过引入视觉置信度感知提示,论文提出的方法能够有效提高VLM的置信度校准水平,但具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于需要高可靠性的视觉-语言任务中,例如自动驾驶、医疗诊断和安全监控。通过提高VLM的置信度校准,可以帮助用户更好地理解和信任模型的预测结果,从而做出更明智的决策。未来,该方法可以进一步扩展到其他多模态任务和模型中。

📄 摘要(原文)

Uncertainty quantification is essential for assessing the reliability and trustworthiness of modern AI systems. Among existing approaches, verbalized uncertainty, where models express their confidence through natural language, has emerged as a lightweight and interpretable solution in large language models (LLMs). However, its effectiveness in vision-language models (VLMs) remains insufficiently studied. In this work, we conduct a comprehensive evaluation of verbalized confidence in VLMs, spanning three model categories, four task domains, and three evaluation scenarios. Our results show that current VLMs often display notable miscalibration across diverse tasks and settings. Notably, visual reasoning models (i.e., thinking with images) consistently exhibit better calibration, suggesting that modality-specific reasoning is critical for reliable uncertainty estimation. To further address calibration challenges, we introduce Visual Confidence-Aware Prompting, a two-stage prompting strategy that improves confidence alignment in multimodal settings. Overall, our study highlights the inherent miscalibration in VLMs across modalities. More broadly, our findings underscore the fundamental importance of modality alignment and model faithfulness in advancing reliable multimodal systems.