Do Vision-Language Models Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

作者: Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song, Jun Lin, Zhiqi Shen

分类: cs.CV, cs.CL

发布日期: 2026-04-17

🔗 代码/项目: GITHUB

💡 一句话要点

提出CrossMath基准，揭示视觉语言模型在视觉推理上的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉推理 多模态学习 基准测试 跨模态对齐

📋 核心要点

现有视觉语言模型（VLMs）的卓越性能，但其推理能力主要依赖于文本模态，而非视觉信息。
提出CrossMath基准，通过构建文本、图像和图文三种形式的问题，严格控制信息对齐，从而隔离模态差异。
实验表明，VLMs在文本推理上表现优异，但加入视觉信息后性能反而下降，通过CrossMath微调可显著提升性能。

📝 摘要（中文）

视觉语言模型(VLMs)中的推理能力因其在各种下游任务中的广泛适用性而备受关注。然而，VLMs的卓越性能是否源于真正的视觉推理，还是主要依赖于其文本骨干网络的推理能力，目前尚不清楚。为了系统地衡量这一点，我们引入了CrossMath，这是一个新颖的多模态推理基准，专为受控的跨模态比较而设计。具体来说，我们以纯文本、纯图像和图像+文本格式构建每个问题，保证任务相关的相同信息，并由人工标注员验证。这种严格的对齐有效地隔离了特定模态的推理差异，同时消除了信息不匹配等混淆因素。对最先进VLMs的广泛评估揭示了一个一致的现象：文本推理和视觉推理之间存在显著的性能差距。值得注意的是，VLMs在纯文本输入下表现出色，而与纯文本基线相比，结合视觉数据（图像+文本）通常会降低性能。这些发现表明，当前的VLMs主要在文本空间中进行推理，对视觉证据的真正依赖有限。为了缓解这一限制，我们为VLM微调整理了一个CrossMath训练集。经验评估表明，在此训练集上进行微调可以显著提高所有个体和联合模态的推理性能，同时在两个通用视觉推理任务上产生强大的增益。源代码可在https://github.com/xuyige/CrossMath获得。

🔬 方法详解

问题定义：现有视觉语言模型（VLMs）在视觉推理任务中表现出色，但尚不清楚其性能是否真正源于视觉理解，还是仅仅依赖于强大的文本推理能力。现有方法难以区分VLMs的视觉推理能力和文本推理能力，缺乏严格的跨模态比较。

核心思路：为了解决上述问题，论文提出了CrossMath基准，其核心思想是构建在文本、图像和图文三种模态下信息完全对齐的问题。通过比较VLMs在不同模态下的推理表现，可以有效评估其对视觉信息的利用程度。

技术框架：CrossMath基准的构建流程包括以下几个主要步骤：1) 设计问题模板，确保问题可以在文本、图像和图文三种模态下表达；2) 收集数据，并根据问题模板生成不同模态的问题实例；3) 进行人工标注，验证不同模态问题的信息对齐性；4) 使用构建好的CrossMath基准评估现有VLMs的推理性能，并分析其在不同模态下的表现差异；5) 利用CrossMath数据集对VLMs进行微调，提升其视觉推理能力。

关键创新：CrossMath基准的关键创新在于其严格的信息对齐设计。通过确保文本、图像和图文三种模态包含完全相同的任务相关信息，可以有效隔离模态差异，从而更准确地评估VLMs的视觉推理能力。与现有基准相比，CrossMath能够更有效地消除信息不对称带来的干扰，提供更可靠的评估结果。

关键设计：CrossMath基准的关键设计包括：1) 问题模板的设计，需要保证问题可以在不同模态下表达，并且易于进行信息对齐；2) 人工标注流程，需要确保标注员能够准确判断不同模态问题的信息是否一致；3) 评估指标的选择，需要能够反映VLMs在不同模态下的推理性能差异。此外，CrossMath训练集用于VLM微调，采用标准的交叉熵损失函数进行优化。

📊 实验亮点

实验结果表明，现有VLMs在纯文本输入下表现出色，但在加入视觉信息后性能反而下降，这表明VLMs主要依赖文本推理。通过在CrossMath训练集上进行微调，VLMs在所有模态下的推理性能都得到了显著提升，同时在通用视觉推理任务上也取得了显著的增益。

🎯 应用场景

该研究成果可应用于评估和提升视觉语言模型的视觉推理能力，从而提高其在图像理解、视觉问答、机器人导航等领域的性能。通过CrossMath基准，可以更有效地诊断VLMs的不足，并指导模型设计和训练，促进多模态人工智能的发展。

📄 摘要（原文）

Reasoning in vision-language models (VLMs) has recently attracted significant attention due to its broad applicability across diverse downstream tasks. However, it remains unclear whether the superior performance of VLMs stems from genuine vision-grounded reasoning or relies predominantly on the reasoning capabilities of their textual backbones. To systematically measure this, we introduce CrossMath, a novel multimodal reasoning benchmark designed for controlled cross-modal comparisons. Specifically, we construct each problem in text-only, image-only, and image+text formats guaranteeing identical task-relevant information, verified by human annotators. This rigorous alignment effectively isolates modality-specific reasoning differences while eliminating confounding factors such as information mismatch. Extensive evaluation of state-of-the-art VLMs reveals a consistent phenomenon: a substantial performance gap between textual and visual reasoning. Notably, VLMs excel with text-only inputs, whereas incorporating visual data (image+text) frequently degrades performance compared to the text-only baseline. These findings indicate that current VLMs conduct reasoning primarily in the textual space, with limited genuine reliance on visual evidence. To mitigate this limitation, we curate a CrossMath training set for VLM fine-tuning. Empirical evaluations demonstrate that fine-tuning on this training set significantly boosts reasoning performance across all individual and joint modalities, while yielding robust gains on two general visual reasoning tasks. Source code is available at https://github.com/xuyige/CrossMath.

Do Vision-Language Models Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理