VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

作者: Wenyi Xiao, Xinchi Xu, Leilei Gan

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-10

备注: 24 pages, ACL 2026 Main. Repository: https://github.com/Mr-Loevan/VL-Calibration

💡 一句话要点

VL-Calibration：解耦视觉-语言大模型推理中的置信度校准

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 置信度校准 强化学习 视觉推理 多模态学习

📋 核心要点

现有LVLM的置信度校准方法将视觉和推理置信度混为一谈，且依赖答案级别的正确性，与LVLM的特性不符。
VL-Calibration通过强化学习框架，将置信度解耦为视觉置信度和推理置信度，分别进行优化。
实验表明，VL-Calibration能有效提高校准性能，提升视觉推理准确率，并具备良好的泛化能力。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在多模态推理方面表现出色，但经常出现幻觉和高置信度的错误回答，这限制了它们在高风险领域的应用。现有的置信度校准方法主要为纯文本LLMs设计，通常使用二元答案级别的正确性来优化单一的整体置信度分数。这种设计与LVLMs不匹配：不正确的预测可能源于感知失败或在正确感知下的推理错误，并且单一置信度会混淆这些来源，而视觉不确定性通常由语言先验主导。为了解决这些问题，我们提出了VL-Calibration，一个强化学习框架，它将置信度显式地解耦为视觉置信度和推理置信度。为了在没有ground-truth感知标签的情况下监督视觉置信度，我们引入了一种内在的视觉确定性估计，它结合了(i)通过图像扰动下的KL散度测量的视觉基础和(ii)通过token熵测量的内部确定性。我们进一步提出了token级别的优势重加权，以基于视觉确定性将优化集中在token上，抑制无根据的幻觉，同时保留有效的感知。在十三个基准测试上的实验表明，VL-Calibration有效地提高了校准，同时提高了视觉推理的准确性，并且它可以推广到跨模型规模和架构的分布外基准测试。

🔬 方法详解

问题定义：大型视觉语言模型（LVLMs）在多模态任务中表现出强大的能力，但它们经常会产生幻觉，即给出错误的答案，并且伴随很高的置信度。现有的置信度校准方法，主要针对纯文本LLMs设计，无法有效处理LVLMs中视觉感知和推理错误混合的问题。这些方法通常使用单一的置信度分数，无法区分视觉感知的不确定性和推理过程中的错误，导致校准效果不佳。

核心思路：VL-Calibration的核心思想是将LVLM的置信度解耦为视觉置信度和推理置信度，分别进行优化。通过这种方式，可以更精确地评估模型在视觉感知和推理两个方面的可靠性。视觉置信度反映了模型对图像内容的理解程度，而推理置信度则反映了模型基于视觉信息进行逻辑推理的能力。解耦后，可以针对性地优化视觉感知和推理过程，从而提高整体的校准性能。

技术框架：VL-Calibration采用强化学习框架。整体流程包括：1) 使用内在视觉确定性估计模块来评估视觉置信度，该模块结合了视觉基础和内部确定性。2) 使用强化学习算法，根据视觉置信度和推理置信度，优化模型的输出。3) 采用token级别的优势重加权策略，根据视觉确定性，调整不同token的权重，抑制幻觉，保留有效的感知。

关键创新：VL-Calibration的关键创新在于：1) 显式地将置信度解耦为视觉置信度和推理置信度。2) 提出了一种内在的视觉确定性估计方法，无需ground-truth感知标签即可监督视觉置信度。3) 引入了token级别的优势重加权策略，以抑制幻觉，提高校准性能。与现有方法相比，VL-Calibration能够更精确地评估和优化LVLM的置信度，从而提高其可靠性和准确性。

关键设计：内在视觉确定性估计模块使用KL散度来衡量图像扰动下的视觉基础，使用token熵来衡量内部确定性。强化学习算法使用奖励函数来鼓励模型给出更准确和可靠的答案。Token级别的优势重加权策略根据视觉确定性调整token的权重，视觉确定性高的token权重更高，反之则更低。

🖼️ 关键图片

📊 实验亮点

VL-Calibration在13个基准测试上进行了评估，结果表明，该方法能够有效提高置信度校准性能，同时提升视觉推理的准确率。此外，VL-Calibration还展现出良好的泛化能力，能够应用于不同规模和架构的模型，并在分布外数据集上取得优异表现。具体性能提升数据未知。

🎯 应用场景

VL-Calibration可应用于对可靠性要求高的领域，例如医疗诊断、自动驾驶和金融分析。通过提高视觉语言模型的置信度校准，可以减少模型产生幻觉和错误回答的风险，从而提高决策的准确性和安全性。该研究还有助于提升人机协作的效率，增强用户对AI系统的信任。

📄 摘要（原文）

Large Vision Language Models (LVLMs) achieve strong multimodal reasoning but frequently exhibit hallucinations and incorrect responses with high certainty, which hinders their usage in high-stakes domains. Existing verbalized confidence calibration methods, largely developed for text-only LLMs, typically optimize a single holistic confidence score using binary answer-level correctness. This design is mismatched to LVLMs: an incorrect prediction may arise from perceptual failures or from reasoning errors given correct perception, and a single confidence conflates these sources while visual uncertainty is often dominated by language priors. To address these issues, we propose VL-Calibration, a reinforcement learning framework that explicitly decouples confidence into visual and reasoning confidence. To supervise visual confidence without ground-truth perception labels, we introduce an intrinsic visual certainty estimation that combines (i) visual grounding measured by KL-divergence under image perturbations and (ii) internal certainty measured by token entropy. We further propose token-level advantage reweighting to focus optimization on tokens based on visual certainty, suppressing ungrounded hallucinations while preserving valid perception. Experiments on thirteen benchmarks show that VL-Calibration effectively improves calibration while boosting visual reasoning accuracy, and it generalizes to out-of-distribution benchmarks across model scales and architectures.

VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理