The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm

📄 arXiv: 2604.20665v1 📥 PDF

作者: Karan Goyal, Dikshant Kukreja

分类: cs.CV, cs.AI

发布日期: 2026-04-22


💡 一句话要点

揭示视觉语言模型中“视觉代价”:提出可信多模态推理的评估与改进框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态推理 可信AI 模态翻译 语义充分性准则

📋 核心要点

  1. 现有视觉语言模型(VLM)依赖语言先验,忽略视觉信息,导致多模态推理能力不足。
  2. 提出模态翻译协议和语义充分性准则(SSC),用于量化评估VLM的视觉信息利用程度。
  3. 通过SSC指导架构设计,旨在提升VLM对视觉信息的依赖,实现更可靠的多模态推理。

📝 摘要(中文)

视觉语言模型(VLM)的快速发展被广泛认为是统一多模态知识发现的开端,但其基础建立在一个危险且未经检验的假设之上:即当前VLM能够忠实地综合多模态数据。本文认为事实并非如此,在主流的视觉编码器-投影器-LLM范式下存在着深刻的可信度危机。最先进的模型经常表现出功能性盲视,即利用强大的语言先验来绕过严重的视觉表征瓶颈,而不是从视觉输入中提取有根据的知识。本文挑战了传统的多模态评估方法,该方法依赖于数据消融或新数据集的创建,从而致命地将数据集偏差与架构能力不足混为一谈。本文提出了一种激进的、基于信息论的偏离:模态翻译协议,旨在量化地揭示“视觉代价”。通过翻译语义有效载荷而不是消融它们,本文提出了三个新的指标——视觉代价(ToS)、视觉诅咒(CoS)和视觉谬误(FoS)——最终形成了语义充分性准则(SSC)。此外,本文提出了一个具有挑衅性的多模态缩放发散定律,假设随着底层语言引擎扩展到前所未有的推理能力,视觉知识瓶颈的数学惩罚反而会增加。本文呼吁KDD社区放弃对“多模态增益”的虚幻追求。通过将SSC从被动诊断约束提升为主动架构蓝图,本文提供了严格、可信的基础,以迫使下一代AI系统真正看到数据,从而实现真正的多模态推理。

🔬 方法详解

问题定义:现有视觉语言模型(VLMs)在多模态推理中存在严重的可信度问题。它们倾向于依赖语言先验知识,而忽略或低估视觉输入,导致模型实际上并未真正“看到”图像内容。传统的评估方法,如数据消融或构建新数据集,无法有效区分模型架构本身的缺陷与数据集偏差的影响。因此,需要一种更精确的方法来量化VLM对视觉信息的依赖程度,并以此为基础改进模型架构。

核心思路:论文的核心思路是通过“模态翻译协议”来量化VLM的“视觉代价”。该协议不直接移除视觉信息(如数据消融),而是将视觉信息的语义内容翻译成另一种形式,然后观察模型在推理过程中的表现。如果模型在视觉信息被翻译后性能显著下降,则表明模型确实依赖于视觉输入。反之,如果模型性能几乎不受影响,则表明模型主要依赖语言先验,而忽略了视觉信息。

技术框架:论文提出的框架主要包含以下几个阶段:1) 模态翻译:将视觉输入中的语义信息翻译成另一种模态,例如,将图像中的物体描述翻译成文本描述。2) 推理:将翻译后的模态信息输入到VLM中进行推理。3) 评估:根据VLM的推理结果,计算视觉代价(ToS)、视觉诅咒(CoS)和视觉谬误(FoS)等指标,并最终确定语义充分性准则(SSC)。SSC用于判断VLM是否充分利用了视觉信息。

关键创新:论文最重要的创新在于提出了“模态翻译协议”和相应的评估指标(ToS、CoS、FoS、SSC)。与传统的数据消融方法相比,模态翻译协议能够更精确地量化VLM对视觉信息的依赖程度,避免了数据集偏差的干扰。此外,论文还提出了“多模态缩放发散定律”,该定律指出随着语言模型规模的增大,视觉知识瓶颈的影响反而会加剧。

关键设计:模态翻译协议的关键在于如何选择合适的翻译方法。论文中可能使用了多种翻译方法,例如,使用图像描述生成模型将图像翻译成文本描述,或者使用视觉问答模型将图像翻译成问答对。此外,SSC的计算方法也至关重要,它需要综合考虑ToS、CoS和FoS等多个指标,并根据具体的任务进行调整。具体的参数设置、损失函数和网络结构等技术细节未知。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提出了模态翻译协议和语义充分性准则(SSC),能够有效量化视觉语言模型对视觉信息的依赖程度。实验结果(具体数据未知)表明,现有VLM普遍存在视觉信息利用不足的问题。通过将SSC作为架构设计的指导原则,有望显著提升VLM的多模态推理能力。

🎯 应用场景

该研究成果可应用于提升视觉语言模型的可靠性和可解释性,例如在自动驾驶、医疗诊断、智能客服等领域,确保模型能够真正理解图像信息,做出更准确、更安全的决策。未来的研究可以基于SSC设计更有效的VLM架构,减少对语言先验的依赖,实现更强大的多模态推理能力。

📄 摘要(原文)

The rapid proliferation of Vision-Language Models (VLMs) is widely celebrated as the dawn of unified multimodal knowledge discovery but its foundation operates on a dangerous, unquestioned axiom: that current VLMs faithfully synthesise multimodal data. We argue they do not. Instead, a profound crisis of trustworthiness underlies the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore fatally conflates dataset biases with architectural incapacity. We propose a radical, information-theoretic departure: the Modality Translation Protocol, designed to quantifiably unmask the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we posit a provocative Divergence Law of Multimodal Scaling, hypothesising that as the underlying language engines scale to unprecedented reasoning capabilities, the mathematical penalty of the visual knowledge bottleneck paradoxically increases. We challenge the KDD community to abandon the illusory pursuit of "multimodal gain". By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide the rigorous, trustworthy foundation required to force the next generation of AI systems to truly see the data, achieving true multimodal reasoning.