Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

📄 arXiv: 2604.16060v1 📥 PDF

作者: Sai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu

分类: cs.CV, cs.AI

发布日期: 2026-04-17


💡 一句话要点

发现思维链推理降低多模态LLM的视觉空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉空间推理 思维链 捷径学习 消融实验

📋 核心要点

  1. 现有基于思维链的多模态模型在空间推理任务中表现不佳,存在泛化能力不足的问题。
  2. 论文通过消融实验揭示模型存在严重的捷径学习,依赖文本先验而非图像信息进行推理。
  3. 研究结果表明,纯文本思维链不适用于空间任务,需要开发以视觉为中心的推理方法。

📝 摘要(中文)

多模态推理模型(MRM)利用思维链(CoT)进行推理,极大地改进了数学和逻辑问题的解决。然而,本文表明这种范式在泛化的空间智能方面存在不足。通过对17个模型在13个空间基准上的全面评估,我们发现了一个关键问题:CoT提示始终会降低视觉空间推理的性能。此外,通过一种新颖的No-Image++消融实验,我们证明了MRM和CoT提示的MLM存在严重的捷径学习问题,即使在没有图像的情况下,也会从文本先验中幻觉出视觉细节。这些发现挑战了纯文本CoT在空间任务中的有效性,并强调了以视觉为中心的推理范式的必要性。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(Multimodal LLMs)在视觉空间推理任务中,使用思维链(Chain-of-Thought, CoT)提示时性能下降的问题。现有的CoT方法在数学和逻辑推理中表现良好,但在处理需要理解空间关系的视觉任务时,却表现出明显的不足。一个关键的痛点是,模型倾向于依赖文本先验知识,而非真正理解图像内容,导致性能下降。

核心思路:论文的核心思路是揭示CoT提示在视觉空间推理任务中的局限性,并证明模型存在严重的捷径学习现象。通过消融实验,特别是No-Image++实验,作者证明即使没有图像输入,模型仍然可以基于文本提示生成看似合理的答案,这表明模型并没有真正利用视觉信息进行推理。

技术框架:论文主要通过实验评估来分析问题,并没有提出新的模型架构。实验流程包括:1) 选择多个多模态模型和空间推理数据集;2) 使用CoT提示和标准提示进行性能对比;3) 设计No-Image++消融实验,移除图像输入,观察模型性能变化。

关键创新:论文最重要的创新在于发现了CoT提示在视觉空间推理任务中的负面影响,并提出了No-Image++消融实验来验证模型中的捷径学习现象。这种方法能够有效区分模型是真正理解了图像内容,还是仅仅依赖文本先验知识进行推理。

关键设计:No-Image++消融实验是关键设计。该实验移除了图像输入,但保留了文本提示,包括CoT推理步骤。通过观察模型在没有图像的情况下是否仍然能够生成合理的答案,可以判断模型是否过度依赖文本信息。实验中使用了多个空间推理数据集,以确保结论的泛化性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在多个空间推理基准测试中,CoT提示普遍降低了多模态模型的性能。No-Image++消融实验进一步证实,模型在没有图像输入的情况下,仍然可以基于文本提示生成看似合理的答案,这表明模型存在严重的捷径学习问题,依赖文本先验而非图像信息。

🎯 应用场景

该研究成果对多模态人工智能系统的设计具有重要指导意义,尤其是在需要视觉空间推理的场景中,如机器人导航、自动驾驶、医学图像分析等。未来的研究可以基于此,探索更有效的视觉推理方法,提升多模态模型在实际应用中的可靠性和准确性。

📄 摘要(原文)

Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. However, we show that this paradigm struggles with generalized spatial intelligence. We perform a comprehensive evaluation of seventeen models across thirteen spatial benchmarks and identify a critical gap: CoT prompting consistently degrades performance in visual spatial reasoning. Furthermore, through a novel No-Image++ ablation, we demonstrate that MRMs and CoT prompted MLMs suffer from severe shortcut learning, and hallucinate visual details from textual priors even when the image is absent. These findings challenge the efficacy of text-only CoT for spatial tasks and underscore the need for vision-centric reasoning paradigms.