Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

作者: Yuangong Chen, Wai Keung Wong, Jiaxing Li, Ioannis Patras, Xu Zheng

分类: cs.CV

发布日期: 2026-05-12

💡 一句话要点

提出PCSR-Bench基准，诊断MLLM在全景图像中视角条件下的空间推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 空间推理 全景图像 视角条件 诊断基准

📋 核心要点

现有的多模态大语言模型在空间推理方面存在不足，尤其是在视角变化的情况下，难以准确理解和推理场景。
论文提出了PCSR-Bench基准，用于评估MLLM在全景图像中视角条件下的空间推理能力，包含多种任务。
实验结果表明，MLLM在基础感知任务上表现较好，但在高级PCSR任务上性能显著下降，存在较大的感知-推理差距。

📝 摘要（中文）

多模态大型语言模型(MLLM)在视觉感知方面表现出色，但在不同视角下进行空间推理的能力仍然有限。本文将此挑战定义为全景图像中的视角条件空间推理(PCSR)，其中广阔的场景覆盖减少了局部观测带来的歧义，但并未消除对视角依赖推理的需求。为了评估这种能力，本文提出了PCSR-Bench，这是一个诊断基准，包含来自26个室内环境的2600张全景图像的84373个问答对。PCSR-Bench包含八个任务，涵盖基础感知(例如，对象计数、相对距离和相对方向)和高级PCSR，包括组合链、以自我为中心的旋转、透视重新定位、自我扭曲和有限视场可见性。对14个代表性MLLM的评估表明存在显著的感知-推理差距：在基础相对方向任务上准确率达到57.59%，但在以自我为中心的旋转任务上降至13.49%，在自我扭曲任务上降至7.13%，在开放式组合推理任务上降至0.64%。为了探究这种差距的可塑性，本文对一个7B规模的模型进行了基于强化学习的诊断研究。奖励塑造将匹配的7B基线从31.10%提高到受控设置下的60.06%，表明PCSR是部分可塑的，而不是完全不可变的。尽管如此，这些收益是任务选择性的，对包括权重分配和奖励公式在内的奖励设计敏感，并且部分依赖于评估协议。这些结果将PCSR定位为当前MLLM中的一个关键瓶颈，并强调了在有针对性的优化下存在有限但有意义的恢复空间。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在全景图像中，由于视角变化而导致的空间推理能力不足的问题。现有方法难以有效处理视角依赖的空间关系，导致在复杂场景理解和推理任务中表现不佳。

核心思路：论文的核心思路是通过构建一个全面的诊断基准PCSR-Bench，系统性地评估MLLM在不同视角和空间关系下的推理能力。该基准包含多种任务，旨在揭示MLLM在哪些方面存在不足，并为后续的优化提供指导。

技术框架：PCSR-Bench基准包含以下几个主要组成部分：1) 全景图像数据集：包含来自26个室内环境的2600张全景图像。2) 问答对：包含84373个问题-答案对，涵盖八个任务。3) 评估指标：用于衡量MLLM在不同任务上的性能。4) 强化学习框架：用于探索PCSR能力的可塑性。

关键创新：论文的关键创新在于提出了PCSR-Bench基准，该基准专门设计用于诊断MLLM在视角条件下的空间推理能力。与现有基准相比，PCSR-Bench更加关注视角变化对空间推理的影响，并包含更丰富的任务类型，例如以自我为中心的旋转、透视重新定位和自我扭曲等。

关键设计：PCSR-Bench中的八个任务涵盖了基础感知和高级PCSR。基础感知任务包括对象计数、相对距离和相对方向。高级PCSR任务包括组合链、以自我为中心的旋转、透视重新定位、自我扭曲和有限视场可见性。强化学习实验中，使用了奖励塑造技术来引导模型学习更好的PCSR能力，奖励函数的设计包括权重分配和奖励公式。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有MLLM在PCSR-Bench上的性能存在显著差距，尤其是在高级PCSR任务上。例如，在以自我为中心的旋转任务上，准确率仅为13.49%，在自我扭曲任务上为7.13%，在开放式组合推理任务上为0.64%。通过强化学习，可以将7B规模模型的性能从31.10%提升到60.06%，表明PCSR具有一定的可塑性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实和增强现实等领域。通过提升MLLM在视角变化下的空间推理能力，可以使机器人更好地理解周围环境，从而实现更智能的导航和交互。在VR/AR中，可以提供更真实和沉浸式的体验。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) show strong visual perception, yet remain limited in reasoning about space under changing viewpoints. We study this challenge as Perspective-Conditioned Spatial Reasoning (PCSR) in 360-degree omnidirectional images, where broad scene coverage reduces ambiguity from partial observations without eliminating the need for viewpoint-dependent inference. To assess this capability, we introduce PCSR-Bench, a diagnostic benchmark of 84,373 question-answer pairs from 2,600 omnidirectional images across 26 indoor environments. PCSR-Bench contains eight tasks spanning foundational perception (e.g., object counting, relative distance, and relative direction) and advanced PCSR, including compositional chains, egocentric rotation, perspective re-anchoring, ego-distortion, and limited-FOV visibility. We evaluate 14 representative MLLMs and observe a substantial perception-reasoning gap: accuracy reaches 57.59% on foundational relative direction, but drops to 13.49% on egocentric rotation, 7.13% on egocentric distortion, and 0.64% on open-ended compositional reasoning. To probe the plasticity of this gap, we conduct an RL-based diagnostic study on a 7B-scale model. Reward shaping improves a matched 7B baseline from 31.10% to 60.06% under a controlled setting, suggesting that PCSR is partial plasticity rather than being fully immutable. Still, the gains are task-selective, sensitive to reward design including both weight allocation and reward formulation, and partially dependent on the evaluation protocol. These results position PCSR as a key bottleneck in current MLLMs and highlight limited but meaningful room for recovery under targeted optimization.

Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理