The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space

📄 arXiv: 2605.09883v1 📥 PDF

作者: Xia Hu, Zhenrui Yue, Brian Potetz, Howard Zhou, Leonidas Guibas, Chun-Ta Lu, Zhicheng Wang

分类: cs.CV, cs.AI

发布日期: 2026-05-11


💡 一句话要点

提出Polaris-Bench基准测试以揭示多模态大模型在视觉推理中的笛卡尔捷径依赖问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 视觉推理 基准测试 空间拓扑不变性 鲁棒性评估 极坐标变换

📋 核心要点

  1. 现有视觉推理基准多基于正交网格,导致模型通过文本坐标进行演绎推理,而非真正的视觉感知,存在严重的“笛卡尔捷径”依赖。
  2. 论文提出了Polaris-Bench,通过将53项视觉推理任务转化为极坐标空间,从根本上打破了模型对正交布局先验的依赖。
  3. 实验表明,前沿MLLMs在极坐标任务上的性能出现断崖式下跌,揭示了模型在拓扑不变性视觉推理方面的核心缺陷。

📝 摘要(中文)

随着多模态大模型(MLLMs)在主流视觉推理基准测试中表现出饱和趋势,其视觉理解能力的鲁棒性受到质疑。本文揭示了“笛卡尔捷径”现象:现有基准测试多基于正交网格布局,模型倾向于利用文本坐标进行演绎推理,而非真正的视觉感知。为打破这种对正交先验的依赖,作者提出了Polaris-Bench,将53项视觉推理任务重构为极坐标空间,同时保持逻辑约束和语义一致。对14个前沿MLLMs的评估显示,模型在笛卡尔布局下70%-83%的准确率在极坐标下骤降至31%-39%,且逻辑推理增益显著减弱。研究表明,当前模型缺乏拓扑不变的视觉推理能力。

🔬 方法详解

问题定义:论文旨在解决多模态大模型(MLLMs)在视觉推理任务中存在的“笛卡尔捷径”问题。现有基准测试大多基于正交网格,模型能够通过离散化的文本坐标进行逻辑演绎,从而掩盖了其视觉感知能力的不足,导致模型在面对非正交布局时推理能力失效。

核心思路:通过空间变换打破模型对正交先验的依赖。论文将视觉推理任务从笛卡尔坐标系映射到极坐标系,在保持任务逻辑语义不变的前提下,改变了视觉信息的空间分布特征,从而强制模型进行真正的视觉理解而非简单的坐标计算。

技术框架:Polaris-Bench构建流程包括:首先选取53项具有代表性的视觉推理任务;其次,通过几何变换将这些任务的视觉布局重构为极坐标形式;最后,构建笛卡尔与极坐标的配对数据集,确保两者的逻辑约束和语义完全对齐,以便进行对比评估。

关键创新:引入“拓扑不变性”作为评估指标,通过极坐标变换这一手段,从根本上剥离了模型对正交网格的依赖,揭示了模型在处理非标准空间布局时的鲁棒性瓶颈。

关键设计:设计了包含53项任务的Polaris-Bench基准,确保了极坐标版本与笛卡尔版本在逻辑上的等价性,并对14个主流MLLMs进行了大规模基准测试,通过性能对比量化了模型对空间布局的依赖程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验覆盖了14个前沿MLLMs,结果显示模型在笛卡尔布局下表现优异(70%-83%准确率),但在极坐标下性能崩塌至31%-39%。即使在逻辑完全等价的情况下,性能降幅依然显著,证明了当前模型严重依赖空间布局先验,缺乏真正的拓扑不变视觉推理能力。

🎯 应用场景

该研究对于评估和提升多模态大模型的鲁棒性具有重要价值。其成果可应用于自动驾驶、机器人导航、医疗影像分析等领域,这些场景要求模型具备空间拓扑不变的视觉理解能力,而非仅仅依赖于规则化的网格数据,从而推动下一代更具通用性的视觉推理模型发展。

📄 摘要(原文)

As current Multimodal Large Language Models rapidly saturate canonical visual reasoning benchmarks, a key question emerges: do these strong scores genuinely reflect robust visual understanding? We identify a pervasive vulnerability, the \textbf{Cartesian Shortcut}: visual reasoning benchmarks prevalently build on orthogonal grid-based layouts that can be readily discretized into explicit textual coordinates. Models systematically exploit this property, heavily leveraging text-based deductive reasoning to assist visual problem-solving. To systematically dismantle this shortcut, we introduce \textbf{Polaris-Bench}, which re-formulates 53 visual reasoning tasks in Polar coordinate space with paired Cartesian counterparts as reference, while preserving consistent logical constraints and task semantics -- thus fundamentally breaking the orthogonal prior that models exploit. Comprehensive evaluation across $14$ state-of-the-art MLLMs reveals that frontier models achieving $70$--$83\%$ on Cartesian layouts collapse to $31$--$39\%$ on Polar equivalents, with degradation persisting even under complete logical equivalence. Moreover, reasoning gains observed on Cartesian layouts are severely diminished on Polar equivalents. These findings expose a critical deficiency in current MLLMs: the lack of topology-invariant visual reasoning.