The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models

📄 arXiv: 2603.16728v1 📥 PDF

作者: Robert Welch, Emir Konuk, Kevin Smith

分类: cs.LG

发布日期: 2026-03-17


💡 一句话要点

链式思考推理诱导视觉-语言模型过度自信,降低不确定性量化可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 链式思考 不确定性量化 过度自信 隐式答案条件化

📋 核心要点

  1. 现有视觉-语言模型在不确定性量化方面存在不足,尤其是在高风险应用中,需要更可靠的置信度评估。
  2. 该研究发现链式思考推理会降低视觉-语言模型不确定性估计的质量,导致模型过度自信,无法准确反映预测的可靠性。
  3. 研究表明,基于一致性的方法在推理过程中表现出更强的鲁棒性,为提升推理型视觉-语言模型的不确定性量化提供了有效途径。

📝 摘要(中文)

视觉-语言模型(VLM)越来越多地部署在高风险环境中,在这些环境中,可靠的不确定性量化(UQ)与预测准确性同样重要。通过链式思考(CoT)提示或推理训练模型进行扩展推理已成为现代VLM流程中普遍存在的做法,但其对UQ可靠性的影响仍然知之甚少。本文表明,即使推理提高了任务准确性,它也会持续降低大多数不确定性估计的质量。本文将隐式答案条件化确定为主要机制:随着推理轨迹在生成最终答案之前收敛于一个结论,token概率越来越反映与模型自身推理轨迹的一致性,而不是对正确性的不确定性。实际上,模型对其答案变得过度自信。相比之下,基于一致性的协议仍然是稳健的,并且在推理下通常会得到改善,使其成为推理型VLM中不确定性估计的实用选择。

🔬 方法详解

问题定义:现有视觉-语言模型在需要高可靠性的场景中,其不确定性量化能力不足。链式思考(CoT)等推理方法虽然能提升任务准确率,但对模型不确定性估计的影响尚不明确,可能导致模型过度自信,无法准确判断预测结果的可靠性。现有方法缺乏对推理过程如何影响不确定性量化的深入理解。

核心思路:该论文的核心思路是揭示链式思考推理如何影响视觉-语言模型的不确定性量化。通过分析推理过程中的token概率变化,发现“隐式答案条件化”是导致模型过度自信的关键机制。模型在推理过程中逐渐形成结论,后续token的生成更多地受到与已有推理轨迹一致性的影响,而非对正确性的真实不确定性。

技术框架:该研究主要通过实验分析来评估不同推理方法对视觉-语言模型不确定性量化的影响。具体流程包括:1) 使用不同的提示策略(包括CoT)引导模型进行视觉-语言推理;2) 测量模型在推理过程中生成的token概率,分析其变化趋势;3) 评估不同不确定性估计方法(如token概率、一致性协议)的性能;4) 对比推理前后模型不确定性量化的质量。

关键创新:该研究最重要的创新点在于揭示了链式思考推理导致视觉-语言模型过度自信的内在机制——“隐式答案条件化”。与现有方法不同,该研究不仅关注推理对任务准确率的影响,更深入地探究了推理过程对模型不确定性估计的负面影响,并提出了基于一致性的方法作为更可靠的不确定性量化方案。

关键设计:研究中使用了多种视觉-语言模型和数据集进行实验。关键设计包括:1) 精心设计的提示语,用于引导模型进行链式思考推理;2) 多种不确定性估计方法,包括基于token概率的方法和基于一致性的方法;3) 详细的实验分析,用于评估不同方法在不同场景下的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,链式思考推理虽然能提升视觉-语言模型的任务准确率,但会显著降低不确定性估计的质量,导致模型过度自信。相比之下,基于一致性的方法在推理过程中表现出更强的鲁棒性,能够提供更可靠的不确定性量化结果。例如,在某些数据集上,使用链式思考推理后,基于token概率的不确定性估计性能下降了10%以上,而基于一致性的方法则保持了相对稳定的性能。

🎯 应用场景

该研究成果可应用于需要高可靠性的视觉-语言模型应用场景,例如医疗诊断、自动驾驶、金融风控等。通过提升模型不确定性量化的准确性,可以帮助用户更好地理解模型的预测结果,并做出更明智的决策。未来的研究可以探索更有效的推理方法,在提升任务准确率的同时,保证模型不确定性量化的可靠性。

📄 摘要(原文)

Vision-language models (VLMs) are increasingly deployed in high-stakes settings where reliable uncertainty quantification (UQ) is as important as predictive accuracy. Extended reasoning via chain-of-thought (CoT) prompting or reasoning-trained models has become ubiquitous in modern VLM pipelines, yet its effect on UQ reliability remains poorly understood. We show that reasoning consistently degrades the quality of most uncertainty estimates, even when it improves task accuracy. We identify implicit answer conditioning as the primary mechanism: as reasoning traces converge on a conclusion before the final answer is generated, token probabilities increasingly reflect consistency with the model's own reasoning trace rather than uncertainty about correctness. In effect, the model becomes overconfident in its answer. In contrast, agreement-based consistency remains robust and often improves under reasoning, making it a practical choice for uncertainty estimation in reasoning-enabled VLMs.