VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

📄 arXiv: 2604.09529v1 📥 PDF

作者: Wenyi Xiao, Xinchi Xu, Leilei Gan

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-10

备注: 24 pages, ACL 2026 Main. Repository: https://github.com/Mr-Loevan/VL-Calibration


💡 一句话要点

VL-Calibration:解耦视觉-语言大模型推理中的置信度校准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 置信度校准 强化学习 视觉推理 多模态学习

📋 核心要点

  1. 现有LVLM的置信度校准方法将视觉和推理置信度混为一谈,且依赖答案级别的正确性,与LVLM的特性不符。
  2. VL-Calibration通过强化学习框架,将置信度解耦为视觉置信度和推理置信度,分别进行优化。
  3. 实验表明,VL-Calibration能有效提高校准性能,提升视觉推理准确率,并具备良好的泛化能力。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在多模态推理方面表现出色,但经常出现幻觉和高置信度的错误回答,这限制了它们在高风险领域的应用。现有的置信度校准方法主要为纯文本LLMs设计,通常使用二元答案级别的正确性来优化单一的整体置信度分数。这种设计与LVLMs不匹配:不正确的预测可能源于感知失败或在正确感知下的推理错误,并且单一置信度会混淆这些来源,而视觉不确定性通常由语言先验主导。为了解决这些问题,我们提出了VL-Calibration,一个强化学习框架,它将置信度显式地解耦为视觉置信度和推理置信度。为了在没有ground-truth感知标签的情况下监督视觉置信度,我们引入了一种内在的视觉确定性估计,它结合了(i)通过图像扰动下的KL散度测量的视觉基础和(ii)通过token熵测量的内部确定性。我们进一步提出了token级别的优势重加权,以基于视觉确定性将优化集中在token上,抑制无根据的幻觉,同时保留有效的感知。在十三个基准测试上的实验表明,VL-Calibration有效地提高了校准,同时提高了视觉推理的准确性,并且它可以推广到跨模型规模和架构的分布外基准测试。

🔬 方法详解

问题定义:大型视觉语言模型(LVLMs)在多模态任务中表现出强大的能力,但它们经常会产生幻觉,即给出错误的答案,并且伴随很高的置信度。现有的置信度校准方法,主要针对纯文本LLMs设计,无法有效处理LVLMs中视觉感知和推理错误混合的问题。这些方法通常使用单一的置信度分数,无法区分视觉感知的不确定性和推理过程中的错误,导致校准效果不佳。

核心思路:VL-Calibration的核心思想是将LVLM的置信度解耦为视觉置信度和推理置信度,分别进行优化。通过这种方式,可以更精确地评估模型在视觉感知和推理两个方面的可靠性。视觉置信度反映了模型对图像内容的理解程度,而推理置信度则反映了模型基于视觉信息进行逻辑推理的能力。解耦后,可以针对性地优化视觉感知和推理过程,从而提高整体的校准性能。

技术框架:VL-Calibration采用强化学习框架。整体流程包括:1) 使用内在视觉确定性估计模块来评估视觉置信度,该模块结合了视觉基础和内部确定性。2) 使用强化学习算法,根据视觉置信度和推理置信度,优化模型的输出。3) 采用token级别的优势重加权策略,根据视觉确定性,调整不同token的权重,抑制幻觉,保留有效的感知。

关键创新:VL-Calibration的关键创新在于:1) 显式地将置信度解耦为视觉置信度和推理置信度。2) 提出了一种内在的视觉确定性估计方法,无需ground-truth感知标签即可监督视觉置信度。3) 引入了token级别的优势重加权策略,以抑制幻觉,提高校准性能。与现有方法相比,VL-Calibration能够更精确地评估和优化LVLM的置信度,从而提高其可靠性和准确性。

关键设计:内在视觉确定性估计模块使用KL散度来衡量图像扰动下的视觉基础,使用token熵来衡量内部确定性。强化学习算法使用奖励函数来鼓励模型给出更准确和可靠的答案。Token级别的优势重加权策略根据视觉确定性调整token的权重,视觉确定性高的token权重更高,反之则更低。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VL-Calibration在13个基准测试上进行了评估,结果表明,该方法能够有效提高置信度校准性能,同时提升视觉推理的准确率。此外,VL-Calibration还展现出良好的泛化能力,能够应用于不同规模和架构的模型,并在分布外数据集上取得优异表现。具体性能提升数据未知。

🎯 应用场景

VL-Calibration可应用于对可靠性要求高的领域,例如医疗诊断、自动驾驶和金融分析。通过提高视觉语言模型的置信度校准,可以减少模型产生幻觉和错误回答的风险,从而提高决策的准确性和安全性。该研究还有助于提升人机协作的效率,增强用户对AI系统的信任。

📄 摘要(原文)

Large Vision Language Models (LVLMs) achieve strong multimodal reasoning but frequently exhibit hallucinations and incorrect responses with high certainty, which hinders their usage in high-stakes domains. Existing verbalized confidence calibration methods, largely developed for text-only LLMs, typically optimize a single holistic confidence score using binary answer-level correctness. This design is mismatched to LVLMs: an incorrect prediction may arise from perceptual failures or from reasoning errors given correct perception, and a single confidence conflates these sources while visual uncertainty is often dominated by language priors. To address these issues, we propose VL-Calibration, a reinforcement learning framework that explicitly decouples confidence into visual and reasoning confidence. To supervise visual confidence without ground-truth perception labels, we introduce an intrinsic visual certainty estimation that combines (i) visual grounding measured by KL-divergence under image perturbations and (ii) internal certainty measured by token entropy. We further propose token-level advantage reweighting to focus optimization on tokens based on visual certainty, suppressing ungrounded hallucinations while preserving valid perception. Experiments on thirteen benchmarks show that VL-Calibration effectively improves calibration while boosting visual reasoning accuracy, and it generalizes to out-of-distribution benchmarks across model scales and architectures.