Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models
作者: Danae Sánchez Villegas, Samuel Lewis-Lim, Nikolaos Aletras, Desmond Elliott
分类: cs.CL, cs.AI, cs.CV, cs.LG
发布日期: 2026-04-16
💡 一句话要点
分析视觉语言模型推理动态,揭示其对不同模态依赖的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 推理动态 模态依赖 思维链 可解释性 多模态学习 答案惯性
📋 核心要点
- 现有视觉语言模型在推理过程中如何整合视觉和文本信息尚不明确,存在黑盒问题。
- 通过分析模型在思维链中的置信度变化,以及在不同模态条件下的表现,来研究模型的推理动态。
- 发现模型存在答案惯性,且易受误导性文本线索影响,思维链只能部分揭示模态依赖性。
📝 摘要(中文)
本文分析了18个视觉语言模型(VLMs)的推理动态,这些模型涵盖了指令调优和推理训练的模型,来自两个不同的模型家族。研究跟踪了思维链(CoT)上的置信度,衡量了推理的纠正效果,并评估了中间推理步骤的贡献。结果表明,模型容易产生答案惯性,即早期对预测的承诺得到加强,而不是在推理步骤中进行修正。虽然推理训练的模型表现出更强的纠正行为,但其增益取决于模态条件,从文本主导到仅视觉设置。通过使用误导性文本线索进行受控干预,研究表明模型始终受到这些线索的影响,即使视觉证据充足。评估了这种影响是否可以从CoT中恢复。虽然这种影响可能出现在CoT中,但其可检测性因模型而异,并取决于所监控的内容。推理训练的模型更可能明确地提及线索,但其更长且流畅的CoT可能看起来以视觉为基础,而实际上遵循文本线索,从而模糊了模态依赖性。相比之下,指令调优的模型较少明确提及线索,但其较短的轨迹揭示了与视觉输入的不一致。总而言之,这些发现表明CoT仅提供了不同模态如何驱动VLM决策的部分视图,这对多模态系统的透明度和安全性具有重要意义。
🔬 方法详解
问题定义:现有视觉语言模型(VLMs)虽然展现出一定的推理能力,但其内部的推理过程,特别是如何整合视觉和文本信息,仍然是一个黑盒。现有的方法难以准确评估模型对不同模态的依赖程度,以及中间推理步骤的贡献,这限制了我们对VLM的理解和信任。
核心思路:本文的核心思路是通过分析模型在推理过程中的置信度变化,以及在不同模态条件下的表现,来揭示模型的推理动态。通过引入误导性的文本线索,并观察模型是否能够根据视觉信息进行纠正,从而评估模型对不同模态的依赖程度。同时,分析思维链(CoT)的内容,判断其是否能够反映模型的真实推理过程。
技术框架:本文的研究框架主要包括以下几个部分:1) 选择18个具有代表性的VLMs,包括指令调优和推理训练的模型;2) 设计一系列视觉语言推理任务,并记录模型在CoT中的置信度变化;3) 通过引入误导性的文本线索,评估模型在不同模态条件下的表现;4) 分析CoT的内容,判断其是否能够反映模型的真实推理过程。
关键创新:本文最重要的技术创新点在于,它提出了一种新的方法来分析VLMs的推理动态,并揭示了模型对不同模态依赖的局限性。通过引入误导性的文本线索,并观察模型是否能够根据视觉信息进行纠正,从而评估模型对不同模态的依赖程度。此外,本文还发现,思维链(CoT)只能部分揭示模型的推理过程,存在一定的局限性。
关键设计:在实验设计方面,本文使用了受控干预的方法,即引入误导性的文本线索,并观察模型是否能够根据视觉信息进行纠正。在模型选择方面,本文选择了18个具有代表性的VLMs,包括指令调优和推理训练的模型,以保证研究结果的泛化性。在评估指标方面,本文使用了置信度变化、纠正效果等指标,来量化模型的推理动态。
🖼️ 关键图片
📊 实验亮点
研究发现,视觉语言模型存在“答案惯性”,即早期预测会强化后续推理,难以纠正。推理训练模型在文本主导环境下表现较好,但在视觉主导环境下提升有限。即使视觉证据充分,模型仍易受误导性文本线索影响,且思维链(CoT)只能部分反映这种影响。
🎯 应用场景
该研究成果可应用于提升多模态系统的透明度和安全性。通过更深入地理解视觉语言模型的推理过程和模态依赖性,可以设计更可靠、更可信赖的AI系统,例如在自动驾驶、医疗诊断等关键领域,减少因模型错误推理而造成的风险。
📄 摘要(原文)
Recent advances in vision language models (VLMs) offer reasoning capabilities, yet how these unfold and integrate visual and textual information remains unclear. We analyze reasoning dynamics in 18 VLMs covering instruction-tuned and reasoning-trained models from two different model families. We track confidence over Chain-of-Thought (CoT), measure the corrective effect of reasoning, and evaluate the contribution of intermediate reasoning steps. We find that models are prone to answer inertia, in which early commitments to a prediction are reinforced, rather than revised during reasoning steps. While reasoning-trained models show stronger corrective behavior, their gains depend on modality conditions, from text-dominant to vision-only settings. Using controlled interventions with misleading textual cues, we show that models are consistently influenced by these cues even when visual evidence is sufficient, and assess whether this influence is recoverable from CoT. Although this influence can appear in the CoT, its detectability varies across models and depends on what is being monitored. Reasoning-trained models are more likely to explicitly refer to the cues, but their longer and fluent CoTs can still appear visually grounded while actually following textual cues, obscuring modality reliance. In contrast, instruction-tuned models refer to the cues less explicitly, but their shorter traces reveal inconsistencies with the visual input. Taken together, these findings indicate that CoT provides only a partial view of how different modalities drive VLM decisions, with important implications for the transparency and safety of multimodal systems.