From Perception to Action: Spatial AI Agents and World Models

📄 arXiv: 2602.01644v1 📥 PDF

作者: Gloria Felicia, Nolan Bryant, Handi Putra, Ayaan Gazali, Eliel Lobo, Esteban Rojas

分类: cs.LG, cs.AI, cs.CV, cs.MA, cs.RO

发布日期: 2026-02-02

备注: 61 pages, 742 citations, 1 figure, 3 tables. Survey paper on spatial AI agents, embodied AI, graph neural networks, and world models


💡 一句话要点

构建空间智能Agent:提出统一框架连接Agent能力与空间任务,解决物理世界感知与行动难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间智能 具身智能体 世界模型 GNN-LLM集成 分层记忆 三维感知 自主系统

📋 核心要点

  1. 现有方法在物理世界中应用大型语言模型存在局限性,缺乏对3D空间结构和物理约束的有效感知与推理能力。
  2. 论文提出一个三轴分类法,连接智能体能力、空间任务和尺度,强调空间基础的重要性,并分析了关键技术趋势。
  3. 研究揭示了分层记忆、GNN-LLM集成和世界模型在不同空间任务中的作用,并指出了未来研究的挑战和方向。

📝 摘要(中文)

大型语言模型在符号推理和规划方面取得了显著进展,但其成功难以直接应用于物理世界。空间智能,即感知3D结构、推理对象关系以及在物理约束下行动的能力,对于具身智能体至关重要。现有综述要么孤立地讨论智能体架构,要么孤立地讨论空间领域,缺乏连接这些互补能力的统一框架。本文弥补了这一空白,通过对2000多篇论文的全面回顾(引用了顶级会议的742篇著作),提出了一个统一的三轴分类法,将智能体能力与跨尺度的空间任务联系起来。我们强调区分空间基础(对几何和物理的度量理解)和符号基础(将图像与文本关联),认为仅凭感知并不能赋予智能体行动能力。我们的分析揭示了三个关键发现:(1)分层记忆系统(能力轴)对于长时程空间任务至关重要。(2)GNN-LLM集成(任务轴)是结构化空间推理的一种有前景的方法。(3)世界模型(尺度轴)对于微观到宏观空间尺度的安全部署至关重要。最后,我们提出了六大挑战,并概述了未来的研究方向,包括需要统一的评估框架来标准化跨领域评估。该分类法为统一碎片化的研究工作奠定了基础,并促进机器人、自动驾驶汽车和地理空间智能领域下一代空间感知自主系统的发展。

🔬 方法详解

问题定义:现有大型语言模型在符号领域表现出色,但在物理世界中的应用面临挑战。它们缺乏对3D空间结构、对象关系和物理约束的理解,导致在具身智能体任务中表现不佳。现有研究要么侧重于智能体架构,要么侧重于空间领域,缺乏一个统一的框架来整合这些互补的能力。

核心思路:论文的核心思路是构建一个统一的分类框架,将智能体的能力、空间任务和空间尺度联系起来。通过区分空间基础(度量理解)和符号基础(文本关联),强调了空间智能对于具身智能体的重要性。这种分类法旨在帮助研究人员更好地理解不同技术在解决空间智能问题中的作用,并促进跨领域研究的整合。

技术框架:论文构建了一个三轴分类法,包含以下三个轴: 1. 能力轴:描述智能体的不同能力,例如感知、记忆、推理和行动。 2. 任务轴:定义不同类型的空间任务,例如导航、操作和规划。 3. 尺度轴:表示空间任务的尺度范围,从微观到宏观。

通过这个三轴框架,研究人员可以将不同的研究工作映射到特定的能力、任务和尺度上,从而更好地理解它们之间的关系。论文还重点分析了分层记忆系统、GNN-LLM集成和世界模型在不同轴上的作用。

关键创新:论文的关键创新在于提出了一个统一的框架,将智能体能力与空间任务联系起来,并强调了空间基础的重要性。与现有研究不同,该框架不仅考虑了符号推理,还关注了对物理世界的度量理解。此外,论文还对现有研究进行了全面的回顾和分析,揭示了关键的技术趋势和挑战。

关键设计:论文没有提出具体的算法或模型,而是侧重于构建一个概念框架。然而,论文强调了以下关键技术: 1. 分层记忆系统:用于存储和检索长期空间信息,支持长时程任务。 2. GNN-LLM集成:利用图神经网络处理结构化空间数据,并结合大型语言模型进行推理。 3. 世界模型:用于模拟物理世界,支持智能体进行规划和学习。

🖼️ 关键图片

fig_0

📊 实验亮点

论文通过对2000多篇论文的分析,揭示了三个关键发现:分层记忆系统对于长时程空间任务至关重要;GNN-LLM集成是结构化空间推理的一种有前景的方法;世界模型对于微观到宏观空间尺度的安全部署至关重要。这些发现为未来的研究方向提供了重要的指导。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶汽车和地理空间智能等领域。通过提升智能体对空间环境的感知和推理能力,可以实现更安全、更高效的自主系统。例如,在机器人领域,可以开发出能够在复杂环境中导航和操作的机器人;在自动驾驶领域,可以提高车辆对周围环境的理解和预测能力;在地理空间智能领域,可以实现更精确的地图构建和环境监测。

📄 摘要(原文)

While large language models have become the prevailing approach for agentic reasoning and planning, their success in symbolic domains does not readily translate to the physical world. Spatial intelligence, the ability to perceive 3D structure, reason about object relationships, and act under physical constraints, is an orthogonal capability that proves important for embodied agents. Existing surveys address either agentic architectures or spatial domains in isolation. None provide a unified framework connecting these complementary capabilities. This paper bridges that gap. Through a thorough review of over 2,000 papers, citing 742 works from top-tier venues, we introduce a unified three-axis taxonomy connecting agentic capabilities with spatial tasks across scales. Crucially, we distinguish spatial grounding (metric understanding of geometry and physics) from symbolic grounding (associating images with text), arguing that perception alone does not confer agency. Our analysis reveals three key findings mapped to these axes: (1) hierarchical memory systems (Capability axis) are important for long-horizon spatial tasks. (2) GNN-LLM integration (Task axis) is a promising approach for structured spatial reasoning. (3) World models (Scale axis) are essential for safe deployment across micro-to-macro spatial scales. We conclude by identifying six grand challenges and outlining directions for future research, including the need for unified evaluation frameworks to standardize cross-domain assessment. This taxonomy provides a foundation for unifying fragmented research efforts and enabling the next generation of spatially-aware autonomous systems in robotics, autonomous vehicles, and geospatial intelligence.