2.5-D Decomposition for LLM-Based Spatial Construction

📄 arXiv: 2605.07066v1 📥 PDF

作者: Paul Whitten, Li-Jen Chen, Sharath Baddam

分类: cs.AI

发布日期: 2026-05-08


💡 一句话要点

提出2.5-D分解方法,通过解耦空间维度提升大模型在自主构建任务中的空间推理精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 神经符号系统 自主构建 大语言模型 机器人操作 边缘计算 物理约束

📋 核心要点

  1. 大语言模型在处理三维空间坐标生成时存在系统性偏差,难以准确完成复杂的积木构建任务。
  2. 提出2.5-D分解策略,将空间规划解耦为二维平面推理与确定性垂直堆叠,规避了模型在高度维度上的推理缺陷。
  3. 实验表明该方法在主流基准测试中大幅超越现有模型,并具备极强的边缘设备迁移能力与泛化性能。

📝 摘要(中文)

自主系统在根据自然语言指令构建结构时需要可靠的空间推理能力,但大语言模型(LLM)在生成三维积木放置坐标时常出现系统性误差。本文提出了一种基于“2.5-D分解”的神经符号流水线:LLM仅负责二维水平平面的规划,而垂直方向的放置则由确定性执行器根据列占用情况自动计算,从而消除了整类空间推理错误。在Build What I Mean基准测试中,GPT-4o-mini结合该流水线实现了94.6%的平均结构准确率,接近架构师代理误差所设定的97.6%理论上限,显著优于GPT-4o(90.3%)及现有最佳系统(76.3%)。消融实验证实,2.5-D分解是性能提升的核心贡献,贡献了50.7个百分点的准确率提升。该方法具有良好的硬件迁移性,在NVIDIA Jetson Thor AGX边缘设备上运行Nemotron-3 120B模型同样达到了94.5%的准确率,且无需修改提示词。该原则适用于任何受重力或物理约束限制自由度的自主构建任务。

🔬 方法详解

问题定义:论文旨在解决大语言模型在三维空间构建任务中,因缺乏物理常识或坐标推理能力导致的积木放置位置错误。现有方法直接让模型输出三维坐标,极易产生空间逻辑冲突。

核心思路:引入“2.5-D分解”思想,利用物理约束(如重力)将三维空间问题降维。LLM仅负责处理二维水平面(X-Y轴)的布局规划,而垂直方向(Z轴)的放置逻辑由确定性算法根据当前列的占用情况自动推导。

技术框架:流水线包含两个主要阶段:首先是LLM规划阶段,模型根据指令生成二维平面上的放置位置;其次是确定性执行阶段,系统根据当前空间占用状态,自动计算积木在垂直方向上的堆叠高度,确保结构符合物理规律。

关键创新:将原本属于LLM的“空间推理”任务拆解为“语义规划”与“确定性物理计算”。这种神经符号结合的方法,通过限制模型输出空间,从根本上消除了因模型坐标推理能力不足导致的错误。

关键设计:该方法的核心在于将垂直维度从LLM的输出空间中剔除。在实现上,系统维护一个动态的列占用表,当LLM指定某坐标点时,执行器自动将积木放置在当前该列的最高点之上,从而保证了构建过程的确定性与物理一致性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在Build What I Mean基准测试中,该方法使GPT-4o-mini达到94.6%的准确率,远超GPT-4o的90.3%及现有最佳系统的76.3%。消融实验证明2.5-D分解贡献了50.7%的精度提升。此外,该方法在NVIDIA Jetson Thor AGX边缘设备上实现了94.5%的准确率,展现了极高的计算效率与跨平台迁移能力。

🎯 应用场景

该方法适用于机器人自主构建、自动化仓储物流、模块化建筑装配等领域。通过将物理约束融入任务流程,该研究为受重力或几何限制的机器人操作任务提供了一种通用的、高可靠性的空间推理范式,特别适合在计算资源受限的边缘设备上部署。

📄 摘要(原文)

Autonomous systems that build structures from natural-language instructions need reliable spatial reasoning, yet large language models (LLMs) make systematic coordinate errors when generating three-dimensional block placements. We present a neuro-symbolic pipeline based on \emph{2.5-D decomposition}: the LLM plans in the two-dimensional horizontal plane while a deterministic executor computes all vertical placement from column occupancy, eliminating an entire class of errors. On the Build What I Mean benchmark (160 rounds), GPT-4o-mini with this pipeline achieves 94.6\% mean structural accuracy across 12 independent runs, within 3.0 percentage points of the 97.6\% ceiling imposed by architect-agent errors that no builder-side improvement can address. This outperforms both GPT-4o at 90.3\% and the best competing system at 76.3\%. A controlled ablation confirms that 2.5-D decomposition is the dominant contributor, accounting for 50.7 percentage points of accuracy. The pipeline transfers directly to edge hardware: Nemotron-3 120B running locally on an NVIDIA Jetson Thor AGX matches the cloud result at 94.5\% with no prompt modifications. The underlying principle, removing deterministic dimensions from the LLM's output space, applies to any autonomous construction or assembly task where gravity or other physical constraints fix one or more degrees of freedom. A transfer experiment on 500 IGLU collaborative building tasks confirm the effect generalizes beyond the primary benchmark.