PanoWorld: Towards Spatial Supersensing in 360$^\circ$ Panorama World

📄 arXiv: 2605.13169v1 📥 PDF

作者: Changpeng Wang, Xin Lin, Junhan Liu, Yuheng Liu, Zhen Wang, Donglian Qi, Yunfeng Yan, Xi Chen

分类: cs.CV, cs.AI

发布日期: 2026-05-13


💡 一句话要点

提出PanoWorld,通过球面空间交叉注意力提升MLLM在360°全景图像中的空间理解能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景理解 空间推理 多模态学习 球面几何 机器人导航

📋 核心要点

  1. 现有MLLM在透视图像下空间理解不足,无法有效处理360°全景图像。
  2. PanoWorld通过球面空间交叉注意力,将球面几何信息融入视觉处理流程,实现全景原生理解。
  3. PanoWorld在多个基准测试中显著优于现有模型,验证了全景原生监督和几何感知模型的重要性。

📝 摘要(中文)

多模态大型实验室模型(MLLM)在空间理解方面仍面临挑战,尤其是在透视图像范式下,其视野范围受限。360度全景感知通过一次性捕获整个周围环境,为导航、机器人搜索和3D场景理解提供了一种超感知形式。然而,现有的MLLM流程通常将全景图分解为多个透视图,忽略了等距柱状投影(ERP)的球面结构。本文研究了全景原生理解,要求MLLM将ERP全景图视为一个连续的、以观察者为中心的空间进行推理。为此,我们首先定义了全景原生理解的关键能力,包括语义锚定、球面定位、参考系转换和深度感知的3D空间推理。然后,我们构建了一个大规模元数据构建流程,将混合来源的ERP全景图转换为几何感知、语言对齐和深度感知的监督信号,并将这些信号实例化为能力对齐的指令调优数据。在模型方面,我们引入了具有球面空间交叉注意力的PanoWorld,将球面几何注入视觉流。我们进一步构建了PanoSpace-Bench,这是一个用于评估ERP原生空间推理的诊断基准。实验表明,PanoWorld在PanoSpace-Bench、H* Bench和R2R-CE Val-Unseen基准上显著优于专有和开源基线。这些结果表明,鲁棒的全景推理需要专门的全景原生监督和几何感知的模型适应。所有源代码和提出的数据将公开发布。

🔬 方法详解

问题定义:现有多模态大语言模型(MLLM)在处理360度全景图像时,通常将其分解为多个透视图像,忽略了全景图像固有的球面结构信息。这种处理方式导致模型在空间理解方面存在不足,尤其是在语义锚定、球面定位、参考系转换和深度感知的3D空间推理等任务上表现不佳。现有方法的痛点在于无法有效利用全景图像的全局信息和空间关系。

核心思路:PanoWorld的核心思路是让MLLM能够直接在全景图像的等距柱状投影(ERP)上进行推理,而不是将其分解为多个透视图像。通过引入球面空间交叉注意力机制,将球面几何信息融入到视觉处理流程中,使模型能够更好地理解全景图像的空间结构和全局上下文。这样设计的目的是为了提升模型在全景图像上的空间理解能力,使其能够更好地完成语义锚定、球面定位等任务。

技术框架:PanoWorld的整体框架包括数据构建和模型设计两个主要部分。数据构建部分,构建了一个大规模元数据构建流程,将混合来源的ERP全景图转换为几何感知、语言对齐和深度感知的监督信号,并生成能力对齐的指令调优数据。模型设计部分,引入了具有球面空间交叉注意力的PanoWorld,将球面几何注入视觉流。此外,还构建了PanoSpace-Bench,用于评估ERP原生空间推理能力。

关键创新:PanoWorld最重要的技术创新点在于球面空间交叉注意力机制。该机制能够将球面几何信息有效地融入到视觉特征中,使模型能够更好地理解全景图像的空间结构。与现有方法相比,PanoWorld能够直接在ERP全景图上进行推理,避免了信息损失和计算冗余。

关键设计:PanoWorld的关键设计包括:1)球面空间交叉注意力模块的具体实现方式,如何将球面坐标信息融入到注意力计算中;2)大规模元数据构建流程的细节,如何从混合来源的ERP全景图中提取几何、语言和深度信息;3)PanoSpace-Bench的构建细节,如何设计评估指标和测试用例来全面评估模型的全景原生空间推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PanoWorld在PanoSpace-Bench、H* Bench和R2R-CE Val-Unseen等基准测试中显著优于现有模型。例如,在PanoSpace-Bench上,PanoWorld的性能提升幅度超过了XX%。这些实验结果表明,PanoWorld能够有效地提升MLLM在全景图像上的空间理解能力,验证了全景原生监督和几何感知模型的重要性。

🎯 应用场景

PanoWorld在机器人导航、虚拟现实、增强现实、自动驾驶等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,实现更精确的定位和导航。在VR/AR领域,可以提供更沉浸式的体验。在自动驾驶领域,可以提升车辆对周围环境的感知能力,提高安全性。未来,PanoWorld有望成为构建更智能、更具空间感知能力的AI系统的关键技术。

📄 摘要(原文)

Multimodal large laboratory models (MLLMs) still struggle with spatial understanding under the dominant perspective-image paradigm, which inherits the narrow field of view of human-like perception. For navigation, robotic search, and 3D scene understanding, 360-degree panoramic sensing offers a form of supersensing by capturing the entire surrounding environment at once. However, existing MLLM pipelines typically decompose panoramas into multiple perspective views, leaving the spherical structure of equirectangular projection (ERP) largely implicit. In this paper, we study pano-native understanding, which requires an MLLM to reason over an ERP panorama as a continuous, observer-centered space. To this end, we first define the key abilities for pano-native understanding, including semantic anchoring, spherical localization, reference-frame transformation, and depth-aware 3D spatial reasoning. We then build a large-scale metadata construction pipeline that converts mixed-source ERP panoramas into geometry-aware, language-grounded, and depth-aware supervision, and instantiate these signals as capability-aligned instruction tuning data. On the model side, we introduce PanoWorld with Spherical Spatial Cross-Attention, which injects spherical geometry into the visual stream. We further construct PanoSpace-Bench, a diagnostic benchmark for evaluating ERP-native spatial reasoning. Experiments show that PanoWorld substantially outperforms both proprietary and open-source baselines on PanoSpace-Bench, H* Bench, and R2R-CE Val-Unseen benchmarks. These results demonstrate that robust panoramic reasoning requires dedicated pano-native supervision and geometry-aware model adaptation. All source code and proposed data will be publicly released.