GLaD: Geometric Latent Distillation for Vision-Language-Action Models

📄 arXiv: 2512.09619v1 📥 PDF

作者: Minghao Guo, Meng Cao, Jiachen Tao, Rongtao Xu, Yan Yan, Xiaodan Liang, Ivan Laptev, Xiaojun Chang

分类: cs.RO

发布日期: 2025-12-10


💡 一句话要点

GLaD:几何潜在蒸馏增强视觉-语言-动作模型的空间推理能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 视觉-语言-动作模型 几何感知 知识蒸馏 空间推理 机器人操作

📋 核心要点

  1. 现有VLA模型忽略了几何信息,限制了其空间推理和操作能力。
  2. GLaD通过几何潜在蒸馏,将3D几何先验知识融入LLM的视觉token表示中。
  3. 实验表明,GLaD在LIBERO任务中优于UniVLA,验证了几何感知预训练的有效性。

📝 摘要(中文)

现有视觉-语言-动作(VLA)模型主要依赖RGB信息,忽略了对空间推理和操作至关重要的几何线索。本文提出了GLaD,一个几何感知的VLA框架,通过知识蒸馏在预训练期间融入3D几何先验。与仅将几何特征蒸馏到视觉编码器不同,GLaD将LLM中对应于视觉token的隐藏状态与冻结的几何感知视觉Transformer (VGGT)的特征对齐,确保几何理解被深度集成到驱动动作预测的多模态表示中。在Bridge数据集上使用这种几何蒸馏机制进行预训练后,GLaD在四个LIBERO任务套件中实现了94.1%的平均成功率,优于使用相同预训练数据的UniVLA (92.5%)。这些结果验证了几何感知预训练增强了空间推理和策略泛化能力,而无需显式深度传感器或3D标注。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在很大程度上依赖于RGB图像信息,而忽略了场景的几何结构信息。这种忽略导致模型在需要复杂空间推理和操作的任务中表现不佳。现有方法缺乏有效利用几何信息的能力,限制了模型的泛化性和鲁棒性。

核心思路:GLaD的核心思路是通过知识蒸馏,将几何信息从一个预训练的几何感知视觉Transformer (VGGT)传递到VLA模型中的语言模型(LLM)。具体来说,GLaD不是直接将几何特征蒸馏到视觉编码器,而是将LLM中对应于视觉token的隐藏状态与VGGT的特征对齐。这样做的目的是让LLM能够更好地理解和利用场景的几何信息,从而提高模型的空间推理和操作能力。

技术框架:GLaD的整体框架包括以下几个主要模块:1) 一个预训练的几何感知视觉Transformer (VGGT),用于提取场景的几何特征;2) 一个视觉编码器,用于将RGB图像编码成视觉特征;3) 一个语言模型(LLM),用于处理文本指令和融合视觉特征;4) 一个动作预测模块,用于根据融合后的多模态表示预测动作。GLaD的关键在于将VGGT提取的几何特征通过知识蒸馏的方式融入到LLM中,从而增强LLM对几何信息的理解。

关键创新:GLaD最重要的技术创新点在于其几何潜在蒸馏机制。与传统的知识蒸馏方法不同,GLaD不是直接将几何特征蒸馏到视觉编码器,而是将LLM中对应于视觉token的隐藏状态与VGGT的特征对齐。这种方法能够更有效地将几何信息融入到多模态表示中,从而提高模型的空间推理和操作能力。此外,GLaD无需显式的深度传感器或3D标注,即可实现几何感知的预训练。

关键设计:GLaD的关键设计包括:1) 使用预训练的VGGT提取几何特征;2) 使用Transformer架构的LLM进行多模态融合;3) 设计合适的损失函数,用于将LLM的隐藏状态与VGGT的特征对齐。具体的损失函数可能包括KL散度或MSE损失等。此外,GLaD还可能采用一些数据增强技术,例如随机裁剪、旋转等,以提高模型的鲁棒性。具体的参数设置和网络结构细节在论文中应该有更详细的描述。

📊 实验亮点

GLaD在LIBERO任务套件上取得了显著的性能提升。在四个LIBERO任务套件中,GLaD实现了94.1%的平均成功率,优于使用相同预训练数据的UniVLA (92.5%)。这一结果表明,通过几何潜在蒸馏,GLaD能够有效地增强模型的空间推理和策略泛化能力。该实验结果验证了几何感知预训练的有效性,并为VLA模型的研究提供了新的思路。

🎯 应用场景

GLaD的研究成果可应用于机器人操作、自动驾驶、增强现实等领域。通过增强模型对空间几何信息的理解,可以提高机器人在复杂环境中的操作能力,提升自动驾驶系统的环境感知能力,并为AR应用提供更真实的空间交互体验。该研究的未来影响在于推动VLA模型在实际场景中的应用,实现更智能、更可靠的人机交互。

📄 摘要(原文)

Most existing Vision-Language-Action (VLA) models rely primarily on RGB information, while ignoring geometric cues crucial for spatial reasoning and manipulation. In this work, we introduce GLaD, a geometry-aware VLA framework that incorporates 3D geometric priors during pretraining through knowledge distillation. Rather than distilling geometric features solely into the vision encoder, we align the LLM's hidden states corresponding to visual tokens with features from a frozen geometry-aware vision transformer (VGGT), ensuring that geometric understanding is deeply integrated into the multimodal representations that drive action prediction. Pretrained on the Bridge dataset with this geometry distillation mechanism, GLaD achieves 94.1% average success rate across four LIBERO task suites, outperforming UniVLA (92.5%) which uses identical pretraining data. These results validate that geometry-aware pretraining enhances spatial reasoning and policy generalization without requiring explicit depth sensors or 3D annotations.