The Sword, Shield, and Achilles' Heel: Characterizing the Linguistic Inductive Bias of Large Language Models for Spatial Reasoning in Navigation Planning

作者: Xudong Zhang, Jian Yang, Shengkai Wang, Jiangpeng Tian, Shaowen Chen, Xian Wei, Ke Li, Xiong You

分类: cs.CL, cs.AI

发布日期: 2026-05-29

🔗 代码/项目: GITHUB

💡 一句话要点

提出双重干预框架，评估大语言模型在导航规划中空间推理的语言归纳偏置。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 导航规划 空间推理 语言归纳偏置 文本表示

📋 核心要点

现有基于LLM的导航系统对空间信息的文本表示方式缺乏深入分析，未充分考虑语言结构和上下文特征对模型行为的影响。
提出双重干预框架，通过分离语言结构和上下文线索，评估LLM在导航规划中的语言归纳偏置，揭示不同因素的影响。
实验结果表明，拓扑信息至关重要，语言格式的影响取决于模型和任务，而错误的语义信息会严重影响规划结果。

📝 摘要（中文）

基于大语言模型（LLM）的导航系统通常构建显式的空间表示（例如，拓扑图、语义栅格地图），并将其转换为文本描述作为LLM的输入。然而，这些基于文本的空间表示的语言结构以及它们包含的上下文特征（例如，拓扑、几何）的选择通常被视为中性的工程决策，而不是塑造LLM行为的关键因素。为了填补这一空白，我们提出了一个双重干预框架，将语言结构与不同的上下文线索分离，以评估LLM在导航规划中的语言归纳偏置。在该框架中，表示干预改变了语言格式和语言压缩程度，阐明了语言表示何时支持或抑制导航规划。上下文干预结合上下文特征组合和冲突探测，明确阐明了LLM在处理不同上下文线索时的偏好和弱点。跨多种空间推理任务和多个模型规模的实验揭示了一种一致的模式：拓扑信息是坚固的盾牌，是鲁棒规划的支柱；语言格式是一把双刃剑，其效果取决于模型大小、任务需求和压缩级别；语义信息是一个致命的阿喀琉斯之踵——不正确的语义线索会系统性地破坏规划过程。总的来说，我们的研究表明，基于LLM的导航中有效的基于文本的空间表示应该保持拓扑完整性，根据模型容量校准表示压缩，并确保语义正确性，而不是简单地采用单一表示。我们的代码已在https://github.com/jonesdong150/LLM-Navigation-Inductive-Bias上公开。

🔬 方法详解

问题定义：现有基于LLM的导航系统在处理导航任务时，通常将空间信息转换为文本描述作为LLM的输入。然而，如何选择合适的文本表示方式，使其既能有效传递空间信息，又能被LLM高效利用，是一个尚未充分研究的问题。现有的方法通常将文本表示的选择视为一个工程问题，而忽略了不同语言结构和上下文特征对LLM行为的潜在影响。因此，需要深入研究LLM在处理不同文本表示的空间信息时的偏好和弱点，从而指导更有效的导航系统设计。

核心思路：本文的核心思路是通过双重干预框架，系统性地评估LLM在导航规划中的语言归纳偏置。该框架通过分离语言结构和上下文线索，研究不同因素对LLM行为的影响。具体来说，表示干预旨在研究不同语言格式和压缩程度对LLM性能的影响，而上下文干预则旨在研究不同上下文特征（如拓扑、几何、语义信息）对LLM性能的影响。通过这种方式，可以揭示LLM在处理空间信息时的偏好和弱点，从而指导更有效的文本表示设计。

技术框架：该研究提出的双重干预框架包含两个主要部分：表示干预和上下文干预。表示干预通过改变文本表示的语言格式和压缩程度，研究LLM对不同表示方式的敏感性。上下文干预则通过组合不同的上下文特征，并引入冲突探测，研究LLM在处理不同类型空间信息时的偏好和弱点。整个框架旨在系统性地评估LLM在导航规划中的语言归纳偏置，从而指导更有效的文本表示设计。

关键创新：该研究的关键创新在于提出了一个双重干预框架，用于评估LLM在导航规划中的语言归纳偏置。与现有方法不同，该框架能够系统性地分离语言结构和上下文线索，研究不同因素对LLM行为的影响。此外，该研究还通过实验揭示了拓扑信息、语言格式和语义信息在导航规划中的不同作用，为LLM-based导航系统的设计提供了重要的指导。

关键设计：在表示干预中，研究人员设计了不同的语言格式和压缩程度，例如，使用不同的词汇和语法结构来描述相同的空间信息，并改变文本的长度和细节程度。在上下文干预中，研究人员组合了不同的上下文特征，例如，只提供拓扑信息，只提供几何信息，或者同时提供拓扑和几何信息。此外，研究人员还引入了冲突探测，即在文本描述中引入错误的语义信息，以研究LLM对错误信息的敏感性。这些设计旨在系统性地评估LLM在处理不同文本表示的空间信息时的偏好和弱点。

🖼️ 关键图片

📊 实验亮点

实验结果表明，拓扑信息是LLM进行鲁棒规划的关键，语言格式的影响取决于模型大小和任务需求，而错误的语义信息会严重影响规划结果。具体来说，即使在存在噪声的情况下，LLM仍然可以利用拓扑信息进行有效的导航规划。然而，如果文本描述中包含错误的语义信息，LLM的规划性能会显著下降。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的基于LLM的导航系统，例如机器人导航、自动驾驶和虚拟现实环境。通过理解LLM对不同空间信息表示的偏好，可以设计更有效的文本描述，提高导航系统的性能和鲁棒性。此外，该研究的方法论也可以推广到其他需要将结构化信息转换为文本输入的LLM应用中。

📄 摘要（原文）

Large Language Model (LLM)-based navigation systems commonly construct explicit spatial representations (e.g., topological graphs, semantic raster maps) and translate them into textual descriptions as LLMs' inputs. However, the linguistic structures of such text-based spatial representations and the choices of contextual features (e.g., topology, geometry) they contain are often treated as neutral engineering decisions rather than key factors that shape LLMs' behavior. To fill the gap, we propose a dual-interventional framework that disentangles linguistic structures from different contextual cues to evaluate the linguistic inductive bias of LLMs for navigation planning. In the framework, representation intervention varies the linguistic format and the degree of linguistic compression, clarifying when linguistic representations support or inhibit navigation planning. Context intervention, combined with contextual feature combination and conflict probing, explicitly clarifies the preferences and weaknesses of LLMs when processing different contextual cues. Experiments across diverse spatial reasoning tasks and multiple model scales reveal a consistent pattern: topological information is a sturdy shield and the backbone of robust planning; linguistic format is a double-edged sword whose effect depends on model size, task demands, and the compression level; and semantic information is a fatal Achilles' heel -- incorrect semantic cues can systematically derail the planning process. Overall, our study shows that effective text-based spatial representations in LLM-based navigation should preserve topological integrity, calibrate representational compression to model capacity, and ensure semantic correctness, rather than simply adopting a single representation. Our code is publicly available at https://github.com/jonesdong150/LLM-Navigation-Inductive-Bias.

The Sword, Shield, and Achilles' Heel: Characterizing the Linguistic Inductive Bias of Large Language Models for Spatial Reasoning in Navigation Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理