Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

作者: Farhad Nooralahzadeh, Omid Rohanian, Yi Zhang, Jonathan Fürst, Kurt Stockinger

分类: cs.CV, cs.CL

发布日期: 2026-04-10

💡 一句话要点

视觉语言模型并非感知盲区，而是仲裁失败：探究视觉-语言冲突的解决机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态学习 可解释性 因果推断 激活修补

📋 核心要点

现有视觉语言模型在处理视觉和语言冲突时，表现出不一致性，问题根源是感知能力不足还是决策仲裁失败，尚不明确。
论文提出多模态仲裁交叉分析(MAC)和全序列激活修补等方法，深入研究视觉和先验信息在模型各层之间的竞争与影响。
实验表明，视觉信息在早期层被充分编码，但最终输出受仲裁机制影响。通过激活引导，可提升视觉信息对最终决策的影响。

📝 摘要（中文）

本文研究了视觉语言模型(VLM)在遇到视觉和语言信息冲突时，例如看到蓝色香蕉却回答“黄色”时，问题的根源是感知错误还是仲裁失败。通过对十个不同规模的VLM进行分析，揭示了一种编码-接地解离现象：即使模型未能正确报告所见内容，其视觉证据的编码强度与提供正确答案的模型相当。利用多模态仲裁交叉(MAC)分析和逐层Logit Lens探测，追踪了模型每一层中视觉信号和先验信号之间的竞争。结果表明，视觉属性可以从早期层线性解码(AUC > 0.86)，且成功和失败样本的准确率几乎相同。然而，最后一层logit的差距，而非编码强度，能更好地预测接地结果，相关性为。通过全序列激活修补建立了因果关系，发现标准LLM可解释性中的末尾token干预对VLM无效，而替换MAC识别的层中的完整token序列会改变60%到84%的输出。部分token分解表明，图像token几乎承担了所有的因果影响，而文本token则没有。无训练激活引导可以在早期层将视觉接地提高高达+3.8%。研究表明，VLM已经具备良好的视觉感知能力，挑战在于如何利用所见内容。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在处理视觉和语言信息冲突时，模型是由于感知能力不足，无法正确编码视觉信息，还是由于仲裁机制失效，导致模型无法有效利用已编码的视觉信息，从而给出错误答案的问题。现有方法难以区分这两种情况，无法有效诊断VLM的视觉理解能力。

核心思路：论文的核心思路是将VLM的视觉信息编码和最终决策过程解耦，通过分析模型各层的激活状态，特别是视觉信息和先验信息之间的竞争关系，来判断模型是否正确编码了视觉信息，以及视觉信息是否在最终决策中发挥了作用。通过干预模型的激活状态，验证视觉信息对最终决策的因果影响。

技术框架：论文的技术框架主要包括以下几个阶段：1) 数据收集与准备：构建包含视觉和语言冲突的数据集，例如蓝色香蕉的图像和“黄色”的文本描述。2) 模型选择与分析：选择不同规模的VLM进行分析，包括CLIP、BLIP等。3) 多模态仲裁交叉(MAC)分析：使用逐层Logit Lens探测技术，分析模型每一层的激活状态，追踪视觉信号和先验信号之间的竞争关系。4) 全序列激活修补：通过替换模型特定层的激活状态，验证视觉信息对最终决策的因果影响。5) 激活引导：通过修改模型早期层的激活状态，提升视觉信息对最终决策的影响。

关键创新：论文最重要的技术创新点在于提出了编码-接地解离的概念，并设计了多模态仲裁交叉(MAC)分析和全序列激活修补等方法，能够有效区分VLM的感知能力和仲裁机制，从而诊断VLM的视觉理解能力。此外，论文还发现标准LLM可解释性中的末尾token干预对VLM无效，而替换完整token序列才能有效改变VLM的输出。

关键设计：论文的关键设计包括：1) 多模态仲裁交叉(MAC)分析：通过逐层Logit Lens探测技术，量化视觉信号和先验信号在模型各层的强度，并分析它们之间的竞争关系。2) 全序列激活修补：通过替换模型特定层的完整token序列，验证视觉信息对最终决策的因果影响。3) 激活引导：使用线性或稀疏自编码器引导，修改模型早期层的激活状态，提升视觉信息对最终决策的影响。具体参数设置和损失函数等细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，视觉属性可以从VLM的早期层线性解码(AUC > 0.86)，且成功和失败样本的准确率几乎相同，说明VLM已经具备良好的视觉感知能力。通过全序列激活修补，发现替换MAC识别的层中的完整token序列会改变60%到84%的输出。无训练激活引导可以在早期层将视觉接地提高高达+3.8%。

🎯 应用场景

该研究成果可应用于提升视觉语言模型的可靠性和可解释性，例如在自动驾驶、医疗诊断等需要高度信任的场景中，确保模型能够正确理解和利用视觉信息。此外，该研究也为改进VLM的训练方法提供了新的思路，例如可以设计更有效的仲裁机制，使模型能够更好地平衡视觉信息和先验知识。

📄 摘要（原文）

When a Vision-Language Model (VLM) sees a blue banana and answers "yellow", is the problem of perception or arbitration? We explore the question in ten VLMs with various sizes and reveal an Encoding--Grounding Dissociation: models that fail to report what they see (and thus provide a wrong answer) still encode the visual evidence as strongly as models that provide the correct answer. Using Multimodal Arbitration Crossover (MAC) analysis with layer-by-layer Logit Lens probing, we track the competition between visual and prior signals across every layer of each model. We show that visual attributes can be linearly decodable from early layers (AUC > 0.86). The accuracy remains nearly identical for both successful and failed samples. However, the gap in the final-layer logit -- not the strength of encoding -- better predicts grounding outcomes with a correlation of . After having studied when VLMs base their answers on image clues rather than prior knowledge, we want to understand the causal relationships. We establish causality through full-sequence activation patching. The standard last-token interventions in LLM interpretability do not affect VLMs. In contrast, replacing the full token sequence at layers identified by MAC alters 60 to 84% of outputs. Partial-token decomposition shows that image tokens carry almost all of the causal impact, while text tokens have none. Scaling addresses the remaining architectural differences to achieve perfect retention. Moving from diagnosis to intervention, we show that training-free activation steering -- both linear and sparse autoencoder-guided -- in early layers can improve visual grounding by up to +3.8% with degrading performance in some setups. Overall, these findings lead to a clear conclusion: VLMs already see well, but the challenge is acting on what they see. Targeted interventions can help to bridge this gap.

Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理