STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO

作者: Pukun Zhao, Longxiang Wang, Chen Chen, Peicheng Wang, Fanqing Zhou, Runze Li, Haojian Huang

分类: cs.CV

发布日期: 2026-04-01

备注: 9 pages, 6 figures, 4 tables, Accepted by ICME 2026

💡 一句话要点

STAR：通过转折点对齐和分段DPO缓解空间推理中的级联错误

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 空间推理 大语言模型 结构化导航 拓扑锚点 直接偏好优化 级联错误 RedMaze-23K

📋 核心要点

现有大语言模型在复杂空间导航中易出现级联错误，导致推理失败。
STAR框架通过拓扑锚点引导，分阶段学习空间语义和优化导航策略，提升鲁棒性。
实验表明，STAR在RedMaze-23K数据集上显著优于现有开源模型，接近GPT-4的性能。

📝 摘要（中文）

结构化空间导航是大语言模型（LLMs）空间推理的核心基准。现有的范式，如思维可视化（VoT），容易在复杂拓扑中产生级联错误。为了解决这个问题，我们提出了STAR，一个基于拓扑锚点的两阶段框架，并引入了带有受人类启发转折点注释的RedMaze-23K数据集。第一阶段使用监督微调来帮助模型内化空间语义并修剪冗余路径。第二阶段采用空间感知的分段直接偏好优化（SDPO）来改进长程导航中的自我纠正。实验表明，STAR在开源模型中实现了最先进的性能：其32B变体优于DeepSeek-V3（29.27% vs. 25.00%），并达到了GPT-4性能的82.4%。

🔬 方法详解

问题定义：论文旨在解决大语言模型在结构化空间导航任务中，由于复杂拓扑结构导致的级联错误问题。现有方法，如思维可视化（VoT），在长程导航中容易累积误差，导致最终导航失败。这些方法缺乏对空间语义的有效理解和利用，难以进行有效的自我纠正。

核心思路：论文的核心思路是利用拓扑锚点（turn-points）作为导航的中间目标，将长程导航分解为多个短程导航任务，从而降低级联错误的风险。通过显式地学习和利用空间语义，模型可以更好地理解环境，并进行更准确的路径规划和自我纠正。

技术框架：STAR框架包含两个主要阶段：1) 监督微调阶段：利用带有转折点注释的RedMaze-23K数据集，对模型进行监督微调，使其能够学习空间语义，并预测导航路径中的关键转折点。该阶段旨在帮助模型内化空间知识，并减少冗余路径的探索。2) 空间感知分段直接偏好优化（SDPO）阶段：利用SDPO算法，对模型进行进一步的优化，使其能够更好地进行长程导航中的自我纠正。SDPO算法通过比较不同导航路径的优劣，来指导模型的学习，从而提高导航的准确性和鲁棒性。

关键创新：STAR框架的关键创新在于：1) 引入了拓扑锚点的概念，将长程导航分解为多个短程导航任务，从而降低了级联错误的风险。2) 提出了空间感知分段直接偏好优化（SDPO）算法，能够有效地利用空间信息，进行长程导航中的自我纠正。3) 构建了带有转折点注释的RedMaze-23K数据集，为模型的训练和评估提供了高质量的数据支持。与现有方法相比，STAR框架能够更好地利用空间语义，进行更准确的路径规划和自我纠正。

关键设计：RedMaze-23K数据集包含人类标注的转折点信息，用于监督微调阶段。SDPO算法采用分段的方式，对长程导航路径进行评估，从而更好地捕捉导航过程中的细微差异。损失函数的设计考虑了空间信息的约束，例如，鼓励模型选择更短、更直的路径。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

STAR框架在RedMaze-23K数据集上取得了显著的性能提升。其32B变体优于DeepSeek-V3（29.27% vs. 25.00%），并达到了GPT-4性能的82.4%。实验结果表明，STAR框架能够有效地缓解空间推理中的级联错误，提高导航的准确性和鲁棒性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过提高大语言模型在空间推理方面的能力，可以使智能体更好地理解和利用周围环境，从而实现更高效、更安全的导航和决策。未来，该技术有望应用于更复杂的空间任务，例如，室内服务机器人、无人机巡检等。

📄 摘要（原文）

Structured spatial navigation is a core benchmark for Large Language Models (LLMs) spatial reasoning. Existing paradigms like Visualization-of-Thought (VoT) are prone to cascading errors in complex topologies. To solve this, we propose STAR, a two-stage framework grounded on topological anchors, and introduce the RedMaze-23K dataset with human-inspired turnpoint annotations. The first stage uses supervised fine-tuning to help models internalize spatial semantics and prune redundant paths. The second adopts Spatial-aware Segment-level Direct Preference Optimization (SDPO) to refine self-correction in long-horizon navigation. Experiments show STAR achieves state-of-the-art performance among open-source models: its 32B variant outperforms DeepSeek-V3 (29.27% vs. 25.00%) and reaches 82.4% of GPT-4's performance.

STAR: Mitigating Cascading Errors in Spatial Reasoning via Turn-point Alignment and Segment-level DPO

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理