Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation

📄 arXiv: 2606.06076v1 📥 PDF

作者: Haocheng Luo, Jiahui Liu, Ruicheng Zhang, Zhizhou Zhong, Jiaqi Huang, Zunnan Xu, Quan Shi, Jun Zhou, Xiu Li

分类: cs.AI, cs.CV

发布日期: 2026-06-04

备注: 17 pages, preprint

🔗 代码/项目: GITHUB


💡 一句话要点

提出MGSD框架以解决视觉空间规划中的模态差距问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉空间规划 模态差距 自蒸馏 多步推理 符号状态 深度学习 机器人导航

📋 核心要点

  1. 现有视觉-语言模型在视觉空间规划中面临感知与推理的模态差距,导致性能不足。
  2. MGSD框架通过冷启动和特权教师的双阶段自蒸馏,解决了视觉状态恢复和多步规划的瓶颈。
  3. 在视觉规划基准上,MGSD在4B和8B骨干网络上分别提高了19.3%和18.4%的宏平均性能。

📝 摘要(中文)

尽管视觉-语言模型在多模态理解方面表现出色,但在视觉空间规划上仍存在困难。我们将其归因于感知-推理模态差距:视觉规划需要从像素中推断潜在状态结构,并在恢复的结构上进行推理以产生有效的动作,而符号规划则直接利用显式对象和约束。为了解决这一问题,我们提出了MGSD,一个两阶段的模态差距感知自蒸馏框架。首先,冷启动的基础阶段为视觉学生提供可靠的状态表示,最小化早期感知噪声。其次,特权教师通过基于策略的蒸馏转移规划能力,使用显式符号状态来监督学生的视觉展开前缀。实验表明,MGSD在视觉规划基准上显著提升了性能,缩小了与符号输入上限的差距。

🔬 方法详解

问题定义:本论文旨在解决视觉空间规划中的模态差距问题,现有方法在从像素推断状态结构和进行多步规划时存在双重瓶颈。

核心思路:MGSD框架通过两阶段的自蒸馏过程,首先减少早期感知噪声,然后利用符号状态指导视觉学生进行有效的规划。

技术框架:MGSD包含两个主要阶段:冷启动基础阶段和特权教师蒸馏阶段。冷启动阶段为视觉模型提供可靠的状态表示,特权教师则通过显式符号状态监督学生的视觉推理过程。

关键创新:MGSD的创新在于引入模态差距感知的自蒸馏机制,显著改善了模型在视觉状态恢复和路径推理上的能力。

关键设计:在训练过程中,使用符号数据进行监督,而推理阶段则完全依赖视觉输入,确保模型在实际应用中具备良好的泛化能力。具体的损失函数和网络结构设计未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MGSD在视觉规划基准上表现出色,4B和8B骨干网络的宏平均性能分别提高了19.3%和18.4%。这些结果表明,MGSD有效缩小了与符号输入上限的差距,验证了其在视觉状态恢复和路径推理方面的优势。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、自动驾驶和智能家居等需要视觉空间规划的场景。通过提高模型的规划能力,MGSD可以在复杂环境中实现更高效的决策,具有重要的实际价值和未来影响。

📄 摘要(原文)

While vision-language models excel at general multimodal understanding, they still struggle with visual spatial planning. We attribute this to a perception-reasoning modality gap: visual planning requires models to infer latent state structures from pixels and then reason over the recovered structure to produce valid actions, whereas symbolic planning directly leverages explicit objects and constraints. This creates dual bottlenecks in visual state recovery and multi-step planning. To address this, we propose MGSD, a two-stage modality-gap-aware self-distillation framework. First, a cold-start grounding stage equips the visual student with reliable state representations, minimizing early perception noise. Second, a privileged teacher transfers planning capabilities via on-policy distillation, using explicit symbolic states to supervise the student's own visual rollout prefixes. Crucially, symbolic data is used strictly during training, leaving inference purely visual. Experiments on visual planning benchmarks show that MGSD consistently improves visual planning across both 4B and 8B backbones, raising the macro average by 19.3% and 18.4%, respectively. The resulting models narrow the gap to symbolic-input upper bounds, while ablations and diagnostics confirm that the improvement comes from both visual state recovery and optimal-path reasoning. These results suggest that modality-gap-aware self-distillation improves not only how models perceive actionable states, but also how they plan over the inferred structure. Code is available at https://github.com/Oranger-l/MGSD.