The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space

作者: Xia Hu, Zhenrui Yue, Brian Potetz, Howard Zhou, Leonidas Guibas, Chun-Ta Lu, Zhicheng Wang

分类: cs.CV, cs.AI

发布日期: 2026-05-11

💡 一句话要点

提出Polaris-Bench基准测试以揭示多模态大模型在视觉推理中的笛卡尔捷径依赖问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 视觉推理 基准测试 空间拓扑不变性 鲁棒性评估 极坐标变换

📋 核心要点

现有视觉推理基准多基于正交网格，导致模型通过文本坐标进行演绎推理，而非真正的视觉感知，存在严重的“笛卡尔捷径”依赖。
论文提出了Polaris-Bench，通过将53项视觉推理任务转化为极坐标空间，从根本上打破了模型对正交布局先验的依赖。
实验表明，前沿MLLMs在极坐标任务上的性能出现断崖式下跌，揭示了模型在拓扑不变性视觉推理方面的核心缺陷。

📝 摘要（中文）

随着多模态大模型（MLLMs）在主流视觉推理基准测试中表现出饱和趋势，其视觉理解能力的鲁棒性受到质疑。本文揭示了“笛卡尔捷径”现象：现有基准测试多基于正交网格布局，模型倾向于利用文本坐标进行演绎推理，而非真正的视觉感知。为打破这种对正交先验的依赖，作者提出了Polaris-Bench，将53项视觉推理任务重构为极坐标空间，同时保持逻辑约束和语义一致。对14个前沿MLLMs的评估显示，模型在笛卡尔布局下70%-83%的准确率在极坐标下骤降至31%-39%，且逻辑推理增益显著减弱。研究表明，当前模型缺乏拓扑不变的视觉推理能力。

🔬 方法详解

问题定义：论文旨在解决多模态大模型（MLLMs）在视觉推理任务中存在的“笛卡尔捷径”问题。现有基准测试大多基于正交网格，模型能够通过离散化的文本坐标进行逻辑演绎，从而掩盖了其视觉感知能力的不足，导致模型在面对非正交布局时推理能力失效。

核心思路：通过空间变换打破模型对正交先验的依赖。论文将视觉推理任务从笛卡尔坐标系映射到极坐标系，在保持任务逻辑语义不变的前提下，改变了视觉信息的空间分布特征，从而强制模型进行真正的视觉理解而非简单的坐标计算。

技术框架：Polaris-Bench构建流程包括：首先选取53项具有代表性的视觉推理任务；其次，通过几何变换将这些任务的视觉布局重构为极坐标形式；最后，构建笛卡尔与极坐标的配对数据集，确保两者的逻辑约束和语义完全对齐，以便进行对比评估。

关键创新：引入“拓扑不变性”作为评估指标，通过极坐标变换这一手段，从根本上剥离了模型对正交网格的依赖，揭示了模型在处理非标准空间布局时的鲁棒性瓶颈。

关键设计：设计了包含53项任务的Polaris-Bench基准，确保了极坐标版本与笛卡尔版本在逻辑上的等价性，并对14个主流MLLMs进行了大规模基准测试，通过性能对比量化了模型对空间布局的依赖程度。

🖼️ 关键图片

📊 实验亮点

实验覆盖了14个前沿MLLMs，结果显示模型在笛卡尔布局下表现优异（70%-83%准确率），但在极坐标下性能崩塌至31%-39%。即使在逻辑完全等价的情况下，性能降幅依然显著，证明了当前模型严重依赖空间布局先验，缺乏真正的拓扑不变视觉推理能力。

🎯 应用场景

该研究对于评估和提升多模态大模型的鲁棒性具有重要价值。其成果可应用于自动驾驶、机器人导航、医疗影像分析等领域，这些场景要求模型具备空间拓扑不变的视觉理解能力，而非仅仅依赖于规则化的网格数据，从而推动下一代更具通用性的视觉推理模型发展。

📄 摘要（原文）

As current Multimodal Large Language Models rapidly saturate canonical visual reasoning benchmarks, a key question emerges: do these strong scores genuinely reflect robust visual understanding? We identify a pervasive vulnerability, the \textbf{Cartesian Shortcut}: visual reasoning benchmarks prevalently build on orthogonal grid-based layouts that can be readily discretized into explicit textual coordinates. Models systematically exploit this property, heavily leveraging text-based deductive reasoning to assist visual problem-solving. To systematically dismantle this shortcut, we introduce \textbf{Polaris-Bench}, which re-formulates 53 visual reasoning tasks in Polar coordinate space with paired Cartesian counterparts as reference, while preserving consistent logical constraints and task semantics -- thus fundamentally breaking the orthogonal prior that models exploit. Comprehensive evaluation across $14$ state-of-the-art MLLMs reveals that frontier models achieving $70$--$83\%$ on Cartesian layouts collapse to $31$--$39\%$ on Polar equivalents, with degradation persisting even under complete logical equivalence. Moreover, reasoning gains observed on Cartesian layouts are severely diminished on Polar equivalents. These findings expose a critical deficiency in current MLLMs: the lack of topology-invariant visual reasoning.

The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理