World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

📄 arXiv: 2603.09774v1 📥 PDF

作者: Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang

分类: cs.AI

发布日期: 2026-03-10


💡 一句话要点

World2Mind:用于具身智能体认知空间推理的工具包

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 多模态基础模型 认知地图 3D重建 实例分割 具身智能 几何拓扑 World2Mind

📋 核心要点

  1. 多模态基础模型在空间推理方面存在不足,过度依赖3D数据或局限于2D视觉,泛化能力受限。
  2. World2Mind工具包通过3D重建和实例分割构建空间认知地图,并利用空间树提供几何拓扑先验。
  3. 实验表明,World2Mind能显著提升多模态模型和纯文本模型在空间推理任务上的性能。

📝 摘要(中文)

当前多模态基础模型在实现鲁棒的空间推理方面仍然面临根本性挑战。现有方法要么通过3D grounding数据过度拟合统计捷径,要么局限于2D视觉感知,限制了空间推理的准确性和在未见场景中的泛化能力。受生物智能空间认知映射机制的启发,我们提出了World2Mind,一个无需训练的空间智能工具包。其核心是利用3D重建和实例分割模型构建结构化的空间认知地图,使多模态基础模型能够主动获取关于感兴趣地标和路线的目标空间知识。为了提供鲁棒的几何拓扑先验,World2Mind综合了一个以自我为中心的空间树(AST),该树使用椭圆参数来准确地建模地标的自上而下的布局。为了减轻3D重建的固有不准确性,我们引入了一个三阶段推理链,包括工具调用评估、模态解耦的线索收集以及几何语义交织的推理。大量实验表明,World2Mind将GPT-5.2等前沿模型的性能提高了5%~18%。令人惊讶的是,仅依靠AST结构化文本,纯文本基础模型就可以执行复杂的3D空间推理,从而达到接近高级多模态模型的性能。

🔬 方法详解

问题定义:论文旨在解决多模态基础模型(MFMs)在空间推理方面存在的不足,具体表现为:现有方法要么过度依赖3D grounding数据中的统计捷径,导致过拟合;要么局限于2D视觉感知,无法进行有效的3D空间推理。这些问题限制了MFMs在未见场景中的泛化能力和空间推理的准确性。

核心思路:论文的核心思路是借鉴生物智能的空间认知映射机制,构建一个名为World2Mind的空间智能工具包。该工具包通过3D重建和实例分割技术,将环境信息转化为结构化的空间认知地图,并利用以自我为中心的空间树(AST)提供几何拓扑先验知识。这种方法旨在使MFMs能够主动获取目标空间知识,从而提高空间推理能力。

技术框架:World2Mind的整体框架包含以下几个主要模块:1) 3D重建与实例分割模块,用于构建环境的3D模型并识别其中的对象实例;2) 以自我为中心的空间树(AST)构建模块,用于生成包含几何拓扑信息的空间树结构;3) 三阶段推理链,包括工具调用评估、模态解耦的线索收集以及几何语义交织的推理。该推理链旨在减轻3D重建带来的误差,并融合几何和语义信息进行推理。

关键创新:论文的关键创新在于提出了World2Mind工具包,它是一种无需训练的空间智能解决方案,能够显著提升MFMs的空间推理能力。与现有方法相比,World2Mind不依赖于大量的3D grounding数据,而是通过构建结构化的空间认知地图和提供几何拓扑先验知识,使MFMs能够进行更准确和泛化的空间推理。此外,AST结构化文本使得纯文本模型也能进行复杂的3D空间推理。

关键设计:AST使用椭圆参数来建模地标的自上而下的布局,从而提供准确的几何拓扑先验。三阶段推理链中的工具调用评估模块用于判断是否需要调用World2Mind工具包进行空间推理;模态解耦的线索收集模块用于从不同模态(如视觉和文本)中提取相关信息;几何语义交织的推理模块则将几何信息和语义信息融合起来进行推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,World2Mind能够显著提升现有模型的空间推理性能。例如,在GPT-5.2模型上,World2Mind带来了5%~18%的性能提升。更令人惊讶的是,仅依靠AST结构化文本,纯文本基础模型也能达到接近高级多模态模型的3D空间推理性能。这些结果充分证明了World2Mind的有效性和优越性。

🎯 应用场景

World2Mind具有广泛的应用前景,例如:机器人导航、自动驾驶、虚拟现实、增强现实、智能家居等领域。它可以帮助智能体更好地理解和利用周围环境的空间信息,从而实现更智能、更自主的行为。该研究的实际价值在于提升了多模态模型在空间推理方面的能力,为开发更智能的具身智能体奠定了基础。未来,World2Mind有望成为各种智能系统的核心组件。

📄 摘要(原文)

Achieving robust spatial reasoning remains a fundamental challenge for current Multimodal Foundation Models (MFMs). Existing methods either overfit statistical shortcuts via 3D grounding data or remain confined to 2D visual perception, limiting both spatial reasoning accuracy and generalization in unseen scenarios. Inspired by the spatial cognitive mapping mechanisms of biological intelligence, we propose World2Mind, a training-free spatial intelligence toolkit. At its core, World2Mind leverages 3D reconstruction and instance segmentation models to construct structured spatial cognitive maps, empowering MFMs to proactively acquire targeted spatial knowledge regarding interested landmarks and routes of interest. To provide robust geometric-topological priors, World2Mind synthesizes an Allocentric-Spatial Tree (AST) that uses elliptical parameters to model the top-down layout of landmarks accurately. To mitigate the inherent inaccuracies of 3D reconstruction, we introduce a three-stage reasoning chain comprising tool invocation assessment, modality-decoupled cue collection, and geometry-semantics interwoven reasoning. Extensive experiments demonstrate that World2Mind boosts the performance of frontier models, such as GPT-5.2, by 5%~18%. Astonishingly, relying solely on the AST-structured text, purely text-only foundation models can perform complex 3D spatial reasoning, achieving performance approaching that of advanced multimodal models.