STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO

📄 arXiv: 2604.00558v1 📥 PDF

作者: Pukun Zhao, Longxiang Wang, Chen Chen, Peicheng Wang, Fanqing Zhou, Runze Li, Haojian Huang

分类: cs.CV

发布日期: 2026-04-01

备注: 9 pages, 6 figures, 4 tables, Accepted by ICME 2026


💡 一句话要点

STAR:通过转折点对齐和分段DPO缓解空间推理中的级联错误

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 大语言模型 结构化导航 拓扑锚点 直接偏好优化 级联错误 RedMaze-23K

📋 核心要点

  1. 现有大语言模型在复杂空间导航中易出现级联错误,导致推理失败。
  2. STAR框架通过拓扑锚点引导,分阶段学习空间语义和优化导航策略,提升鲁棒性。
  3. 实验表明,STAR在RedMaze-23K数据集上显著优于现有开源模型,接近GPT-4的性能。

📝 摘要(中文)

结构化空间导航是大语言模型(LLMs)空间推理的核心基准。现有的范式,如思维可视化(VoT),容易在复杂拓扑中产生级联错误。为了解决这个问题,我们提出了STAR,一个基于拓扑锚点的两阶段框架,并引入了带有受人类启发转折点注释的RedMaze-23K数据集。第一阶段使用监督微调来帮助模型内化空间语义并修剪冗余路径。第二阶段采用空间感知的分段直接偏好优化(SDPO)来改进长程导航中的自我纠正。实验表明,STAR在开源模型中实现了最先进的性能:其32B变体优于DeepSeek-V3(29.27% vs. 25.00%),并达到了GPT-4性能的82.4%。

🔬 方法详解

问题定义:论文旨在解决大语言模型在结构化空间导航任务中,由于复杂拓扑结构导致的级联错误问题。现有方法,如思维可视化(VoT),在长程导航中容易累积误差,导致最终导航失败。这些方法缺乏对空间语义的有效理解和利用,难以进行有效的自我纠正。

核心思路:论文的核心思路是利用拓扑锚点(turn-points)作为导航的中间目标,将长程导航分解为多个短程导航任务,从而降低级联错误的风险。通过显式地学习和利用空间语义,模型可以更好地理解环境,并进行更准确的路径规划和自我纠正。

技术框架:STAR框架包含两个主要阶段:1) 监督微调阶段:利用带有转折点注释的RedMaze-23K数据集,对模型进行监督微调,使其能够学习空间语义,并预测导航路径中的关键转折点。该阶段旨在帮助模型内化空间知识,并减少冗余路径的探索。2) 空间感知分段直接偏好优化(SDPO)阶段:利用SDPO算法,对模型进行进一步的优化,使其能够更好地进行长程导航中的自我纠正。SDPO算法通过比较不同导航路径的优劣,来指导模型的学习,从而提高导航的准确性和鲁棒性。

关键创新:STAR框架的关键创新在于:1) 引入了拓扑锚点的概念,将长程导航分解为多个短程导航任务,从而降低了级联错误的风险。2) 提出了空间感知分段直接偏好优化(SDPO)算法,能够有效地利用空间信息,进行长程导航中的自我纠正。3) 构建了带有转折点注释的RedMaze-23K数据集,为模型的训练和评估提供了高质量的数据支持。与现有方法相比,STAR框架能够更好地利用空间语义,进行更准确的路径规划和自我纠正。

关键设计:RedMaze-23K数据集包含人类标注的转折点信息,用于监督微调阶段。SDPO算法采用分段的方式,对长程导航路径进行评估,从而更好地捕捉导航过程中的细微差异。损失函数的设计考虑了空间信息的约束,例如,鼓励模型选择更短、更直的路径。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STAR框架在RedMaze-23K数据集上取得了显著的性能提升。其32B变体优于DeepSeek-V3(29.27% vs. 25.00%),并达到了GPT-4性能的82.4%。实验结果表明,STAR框架能够有效地缓解空间推理中的级联错误,提高导航的准确性和鲁棒性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过提高大语言模型在空间推理方面的能力,可以使智能体更好地理解和利用周围环境,从而实现更高效、更安全的导航和决策。未来,该技术有望应用于更复杂的空间任务,例如,室内服务机器人、无人机巡检等。

📄 摘要(原文)

Structured spatial navigation is a core benchmark for Large Language Models (LLMs) spatial reasoning. Existing paradigms like Visualization-of-Thought (VoT) are prone to cascading errors in complex topologies. To solve this, we propose STAR, a two-stage framework grounded on topological anchors, and introduce the RedMaze-23K dataset with human-inspired turnpoint annotations. The first stage uses supervised fine-tuning to help models internalize spatial semantics and prune redundant paths. The second adopts Spatial-aware Segment-level Direct Preference Optimization (SDPO) to refine self-correction in long-horizon navigation. Experiments show STAR achieves state-of-the-art performance among open-source models: its 32B variant outperforms DeepSeek-V3 (29.27% vs. 25.00%) and reaches 82.4% of GPT-4's performance.