Learning to Draw ASCII Improves Spatial Reasoning in Language Models

📄 arXiv: 2604.14641v1 📥 PDF

作者: Shiyuan Huang, Li Liu, Jincheng He, Leilani H. Gilpin

分类: cs.AI

发布日期: 2026-04-16


💡 一句话要点

通过学习绘制ASCII图提升语言模型空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 语言模型 ASCII布局 视觉表示 Text2Space数据集

📋 核心要点

  1. 现有大型语言模型在空间推理方面存在不足,难以有效理解和处理空间关系。
  2. 论文提出训练LLM学习从文本描述生成ASCII布局,以此提升其空间理解和推理能力。
  3. 实验表明,该方法显著提升了LLM在空间推理任务上的性能,并具有良好的泛化能力。

📝 摘要(中文)

人类在面对复杂的空间问题时,通常会通过绘制草图来组织思路,绘画行为本身也能加深理解。本文探讨了大型语言模型(LLM)是否也遵循类似的原则:学习从空间描述中构建显式的视觉布局能否培养真正的空间理解能力?为此,我们提出了Text2Space数据集,该数据集将自然语言描述与真实的ASCII网格布局和空间问答对配对,从而能够区分空间表示构建的失败和推理的失败。我们选择ASCII是因为它具有人类可读性,完全在语言模型的token空间内运行,并以结构上可验证的形式编码空间关系。我们的评估揭示了一种明显的“读写不对称”现象:LLM能够有效地解释ASCII表示,但难以从文本生成它们,并且这些构建错误会传递到下游的不正确答案。为了解决这个限制,我们训练模型进行布局构建(Text$ ightarrow$ASCII),发现即使在推理时没有生成任何ASCII,它也能显著提高仅从文本进行空间推理的能力。将构建与理解训练相结合,进一步放大了这些收益。至关重要的是,这些改进可以转移到三个外部空间推理基准,这表明,正如草图能锐化人类的空间思维一样,学习构建显式布局也能培养超出训练格式的空间理解能力。

🔬 方法详解

问题定义:现有的大型语言模型在处理空间推理问题时,往往难以准确理解和表示空间关系。它们虽然可以阅读和理解文本描述,但在将这些描述转化为内部空间表征时存在困难,导致在后续的空间推理任务中表现不佳。一个关键的痛点是,模型难以将文本描述中的空间信息有效地转化为可操作的、结构化的表示形式。

核心思路:论文的核心思路是让LLM学习如何将自然语言描述转化为显式的、结构化的ASCII网格布局。通过训练模型生成这些布局,可以迫使模型更好地理解和编码空间关系。这种方法借鉴了人类通过绘制草图来辅助空间思考的习惯,认为显式的视觉表示能够帮助模型更好地组织和理解空间信息。

技术框架:整体框架包含两个主要阶段:布局构建(Text$ ightarrow$ASCII)和空间推理。首先,使用Text2Space数据集训练LLM学习从文本描述生成对应的ASCII布局。然后,利用生成的或给定的ASCII布局,结合空间问答对,训练模型进行空间推理。在推理阶段,模型可以直接从文本描述进行推理,也可以先生成ASCII布局再进行推理。整个流程旨在提升模型对空间关系的理解和推理能力。

关键创新:最重要的技术创新点在于引入了ASCII布局作为LLM理解和推理空间信息的中间表示。与传统的隐式空间表征方法不同,ASCII布局提供了一种显式的、结构化的、可验证的表示形式,使得模型能够更好地捕捉和利用空间关系。此外,通过训练模型生成ASCII布局,可以有效地解决LLM在“读写”空间信息时的不对称性问题。

关键设计:Text2Space数据集是关键的设计之一,它包含了自然语言描述、对应的ASCII网格布局以及空间问答对。在训练过程中,可以使用交叉熵损失函数来优化布局生成任务,并使用标准的问答损失函数来优化空间推理任务。论文还探索了不同的训练策略,例如单独训练布局构建模型,以及联合训练布局构建和空间推理模型。具体的网络结构可以采用Transformer架构,并根据任务需求进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过学习绘制ASCII布局,LLM在空间推理任务上的性能得到了显著提升。例如,在Text2Space数据集上,仅通过布局构建训练,模型在空间推理任务上的准确率就得到了显著提高。更重要的是,这些改进可以泛化到三个外部空间推理基准上,证明了该方法的有效性和通用性。

🎯 应用场景

该研究成果可应用于机器人导航、室内场景理解、游戏AI设计、以及增强现实等领域。通过提升语言模型对空间关系的理解能力,可以使机器人在复杂环境中更好地进行定位、规划和交互,从而实现更智能化的服务和应用。

📄 摘要(原文)

When faced with complex spatial problems, humans naturally sketch layouts to organize their thinking, and the act of drawing further sharpens their understanding. In this work, we ask whether a similar principle holds for Large Language Models (LLMs): can learning to construct explicit visual layouts from spatial descriptions instill genuine spatial understanding? We introduce Text2Space, a dataset that pairs natural language descriptions with ground-truth ASCII grid layouts and spatial QA pairs, enabling us to separate failures in constructing spatial representations from failures in reasoning over them. We adopt ASCII because it is human-readable, operates entirely within the token space of language models, and encodes spatial relations in a structurally verifiable form. Our evaluation reveals a pronounced "Read-Write Asymmetry": LLMs interpret ASCII representations effectively but struggle to produce them from text, and these construction errors propagate to incorrect answers downstream. To address this limitation, we train models on layout construction (Text$\rightarrow$ASCII) and find that it significantly improves spatial reasoning from text alone, even without producing any ASCII at inference time. Combining construction with comprehension training further amplifies these gains. Crucially, these improvements transfer to three external spatial reasoning benchmarks, demonstrating that, much as sketching sharpens human spatial thinking, learning to construct explicit layouts instills spatial understanding that generalizes beyond the training format.