Linking Perception, Confidence and Accuracy in MLLMs

📄 arXiv: 2603.12149v1 📥 PDF

作者: Yuetian Du, Yucheng Wang, Rongyu Zhang, Zhijie Xu, Boyu Yang, Ming Kong, Jie Liu, Qiang Zhu

分类: cs.CV, cs.CL

发布日期: 2026-03-12

备注: Accepted by CVPR2026


💡 一句话要点

提出置信度驱动的强化学习与测试时缩放,解决多模态大语言模型中的置信度校准问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 置信度校准 强化学习 测试时缩放 自洽性 自反思 视觉自检

📋 核心要点

  1. 现有MLLM主要关注提升视觉感知以提高准确率,但忽略了模型置信度校准问题,即模型是否知道自己何时出错。
  2. 论文提出置信度驱动的强化学习(CDRL)和置信度感知测试时缩放(CA-TTS),利用置信度信号来提升模型感知能力和校准置信度。
  3. 实验结果表明,该方法在四个基准测试中取得了显著提升,平均提升8.8%,验证了各模块的有效性和缩放优越性。

📝 摘要(中文)

多模态大语言模型(MLLM)的最新进展主要集中在增强视觉感知以提高准确性。然而,一个关键问题仍未被探索:模型是否知道自己何时不知道?通过探测实验,我们揭示了MLLM中严重的置信度误校准问题。为了解决这个问题,我们提出了置信度驱动的强化学习(CDRL),它使用原始-噪声图像对和一种新颖的基于置信度的奖励来增强感知敏感性并稳健地校准模型的置信度。除了训练收益外,校准后的置信度还支持更有效的测试时缩放。我们进一步提出了置信度感知测试时缩放(CA-TTS),它在置信度信号的指导下动态协调自洽性、自反思和视觉自检模块。专家模型在多个角色(例如,规划者、评论者、投票者)中发挥作用,以调度这些模块并提供外部验证。我们的集成框架建立了新的最先进的结果,在四个基准测试中实现了持续的8.8%的收益。更多的消融研究证明了每个模块的有效性和缩放优越性。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)中存在的置信度误校准问题。现有方法主要关注提升视觉感知能力,而忽略了模型自身对预测结果的置信度评估。这导致模型在不确定情况下仍然给出高置信度的错误答案,影响了其可靠性和实用性。

核心思路:论文的核心思路是利用置信度信号来指导模型的学习和推理过程。通过强化学习,使模型能够更准确地评估自身预测的置信度,并在测试时根据置信度动态调整推理策略。这种设计旨在提高模型在各种情况下的鲁棒性和准确性。

技术框架:整体框架包含两个主要部分:置信度驱动的强化学习(CDRL)和置信度感知测试时缩放(CA-TTS)。CDRL用于训练阶段,通过原始-噪声图像对和基于置信度的奖励函数来校准模型的置信度。CA-TTS用于测试阶段,利用校准后的置信度信号动态协调自洽性、自反思和视觉自检模块。一个专家模型充当规划者、评论者和投票者,负责调度这些模块并进行外部验证。

关键创新:论文的关键创新在于将置信度作为核心信号,贯穿模型的训练和推理过程。CDRL通过强化学习直接优化模型的置信度校准,而CA-TTS则利用置信度动态调整推理策略,实现了更灵活和高效的测试时缩放。这种以置信度为中心的策略与现有方法有本质区别,现有方法通常只关注提升视觉感知能力。

关键设计:CDRL的关键设计包括:1) 使用原始-噪声图像对作为输入,鼓励模型对噪声更敏感;2) 设计基于置信度的奖励函数,直接优化置信度校准。CA-TTS的关键设计包括:1) 利用专家模型作为调度器,根据置信度动态选择不同的推理模块;2) 集成自洽性、自反思和视觉自检模块,提供多方面的验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提出的方法在四个基准测试中取得了显著提升,平均提升8.8%。消融实验证明了CDRL和CA-TTS中各个模块的有效性。此外,该方法在测试时缩放方面表现出优越性,表明其能够有效地利用置信度信号来提升模型性能。

🎯 应用场景

该研究成果可应用于需要高可靠性和可解释性的多模态应用场景,例如自动驾驶、医疗诊断和智能客服。通过提高模型置信度校准,可以减少错误决策的风险,并提升用户对模型的信任度。未来,该方法可以进一步扩展到其他多模态任务和模型架构。

📄 摘要(原文)

Recent advances in Multi-modal Large Language Models (MLLMs) have predominantly focused on enhancing visual perception to improve accuracy. However, a critical question remains unexplored: Do models know when they do not know? Through a probing experiment, we reveal a severe confidence miscalibration problem in MLLMs. To address this, we propose Confidence-Driven Reinforcement Learning (CDRL), which uses original-noise image pairs and a novel confidence-based reward to enhance perceptual sensitivity and robustly calibrate the model's confidence. Beyond training benefits, calibrated confidence enables more effective test-time scaling as a free lunch. We further propose Confidence-Aware Test-Time Scaling (CA-TTS), which dynamically coordinates Self-Consistency, Self-Reflection, and Visual Self-Check modules guided by confidence signals. An Expert Model acts in multiple roles (e.g., Planner, Critic, Voter) to schedule these modules and provide external verification. Our integrated framework establishes new state-of-the-art results with consistent 8.8% gains across four benchmarks. More ablation studies demonstrate the effectiveness of each module and scaling superiority.