Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images
作者: Yuangong Chen, Wai Keung Wong, Jiaxing Li, Ioannis Patras, Xu Zheng
分类: cs.CV
发布日期: 2026-05-12
💡 一句话要点
提出PCSR-Bench基准,诊断MLLM在全景图像中视角条件下的空间推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 空间推理 全景图像 视角条件 诊断基准
📋 核心要点
- 现有的多模态大语言模型在空间推理方面存在不足,尤其是在视角变化的情况下,难以准确理解和推理场景。
- 论文提出了PCSR-Bench基准,用于评估MLLM在全景图像中视角条件下的空间推理能力,包含多种任务。
- 实验结果表明,MLLM在基础感知任务上表现较好,但在高级PCSR任务上性能显著下降,存在较大的感知-推理差距。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉感知方面表现出色,但在不同视角下进行空间推理的能力仍然有限。本文将此挑战定义为全景图像中的视角条件空间推理(PCSR),其中广阔的场景覆盖减少了局部观测带来的歧义,但并未消除对视角依赖推理的需求。为了评估这种能力,本文提出了PCSR-Bench,这是一个诊断基准,包含来自26个室内环境的2600张全景图像的84373个问答对。PCSR-Bench包含八个任务,涵盖基础感知(例如,对象计数、相对距离和相对方向)和高级PCSR,包括组合链、以自我为中心的旋转、透视重新定位、自我扭曲和有限视场可见性。对14个代表性MLLM的评估表明存在显著的感知-推理差距:在基础相对方向任务上准确率达到57.59%,但在以自我为中心的旋转任务上降至13.49%,在自我扭曲任务上降至7.13%,在开放式组合推理任务上降至0.64%。为了探究这种差距的可塑性,本文对一个7B规模的模型进行了基于强化学习的诊断研究。奖励塑造将匹配的7B基线从31.10%提高到受控设置下的60.06%,表明PCSR是部分可塑的,而不是完全不可变的。尽管如此,这些收益是任务选择性的,对包括权重分配和奖励公式在内的奖励设计敏感,并且部分依赖于评估协议。这些结果将PCSR定位为当前MLLM中的一个关键瓶颈,并强调了在有针对性的优化下存在有限但有意义的恢复空间。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在全景图像中,由于视角变化而导致的空间推理能力不足的问题。现有方法难以有效处理视角依赖的空间关系,导致在复杂场景理解和推理任务中表现不佳。
核心思路:论文的核心思路是通过构建一个全面的诊断基准PCSR-Bench,系统性地评估MLLM在不同视角和空间关系下的推理能力。该基准包含多种任务,旨在揭示MLLM在哪些方面存在不足,并为后续的优化提供指导。
技术框架:PCSR-Bench基准包含以下几个主要组成部分:1) 全景图像数据集:包含来自26个室内环境的2600张全景图像。2) 问答对:包含84373个问题-答案对,涵盖八个任务。3) 评估指标:用于衡量MLLM在不同任务上的性能。4) 强化学习框架:用于探索PCSR能力的可塑性。
关键创新:论文的关键创新在于提出了PCSR-Bench基准,该基准专门设计用于诊断MLLM在视角条件下的空间推理能力。与现有基准相比,PCSR-Bench更加关注视角变化对空间推理的影响,并包含更丰富的任务类型,例如以自我为中心的旋转、透视重新定位和自我扭曲等。
关键设计:PCSR-Bench中的八个任务涵盖了基础感知和高级PCSR。基础感知任务包括对象计数、相对距离和相对方向。高级PCSR任务包括组合链、以自我为中心的旋转、透视重新定位、自我扭曲和有限视场可见性。强化学习实验中,使用了奖励塑造技术来引导模型学习更好的PCSR能力,奖励函数的设计包括权重分配和奖励公式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在PCSR-Bench上的性能存在显著差距,尤其是在高级PCSR任务上。例如,在以自我为中心的旋转任务上,准确率仅为13.49%,在自我扭曲任务上为7.13%,在开放式组合推理任务上为0.64%。通过强化学习,可以将7B规模模型的性能从31.10%提升到60.06%,表明PCSR具有一定的可塑性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、虚拟现实和增强现实等领域。通过提升MLLM在视角变化下的空间推理能力,可以使机器人更好地理解周围环境,从而实现更智能的导航和交互。在VR/AR中,可以提供更真实和沉浸式的体验。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) show strong visual perception, yet remain limited in reasoning about space under changing viewpoints. We study this challenge as Perspective-Conditioned Spatial Reasoning (PCSR) in 360-degree omnidirectional images, where broad scene coverage reduces ambiguity from partial observations without eliminating the need for viewpoint-dependent inference. To assess this capability, we introduce PCSR-Bench, a diagnostic benchmark of 84,373 question-answer pairs from 2,600 omnidirectional images across 26 indoor environments. PCSR-Bench contains eight tasks spanning foundational perception (e.g., object counting, relative distance, and relative direction) and advanced PCSR, including compositional chains, egocentric rotation, perspective re-anchoring, ego-distortion, and limited-FOV visibility. We evaluate 14 representative MLLMs and observe a substantial perception-reasoning gap: accuracy reaches 57.59% on foundational relative direction, but drops to 13.49% on egocentric rotation, 7.13% on egocentric distortion, and 0.64% on open-ended compositional reasoning. To probe the plasticity of this gap, we conduct an RL-based diagnostic study on a 7B-scale model. Reward shaping improves a matched 7B baseline from 31.10% to 60.06% under a controlled setting, suggesting that PCSR is partial plasticity rather than being fully immutable. Still, the gains are task-selective, sensitive to reward design including both weight allocation and reward formulation, and partially dependent on the evaluation protocol. These results position PCSR as a key bottleneck in current MLLMs and highlight limited but meaningful room for recovery under targeted optimization.