GLaD: Geometric Latent Distillation for Vision-Language-Action Models
作者: Minghao Guo, Meng Cao, Jiachen Tao, Rongtao Xu, Yan Yan, Xiaodan Liang, Ivan Laptev, Xiaojun Chang
分类: cs.RO
发布日期: 2025-12-10
💡 一句话要点
GLaD:几何潜在蒸馏增强视觉-语言-动作模型的空间推理能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 几何感知 知识蒸馏 空间推理 机器人操作
📋 核心要点
- 现有VLA模型忽略了几何信息,限制了其空间推理和操作能力。
- GLaD通过几何潜在蒸馏,将3D几何先验知识融入LLM,提升多模态表示。
- 实验表明,GLaD在LIBERO任务中超越UniVLA,验证了几何感知预训练的有效性。
📝 摘要(中文)
现有的视觉-语言-动作(VLA)模型主要依赖RGB信息,忽略了对空间推理和操作至关重要的几何线索。本文提出了GLaD,一个几何感知的VLA框架,通过知识蒸馏在预训练期间融入3D几何先验。与仅将几何特征蒸馏到视觉编码器不同,GLaD将LLM中对应于视觉token的隐藏状态与来自冻结的几何感知视觉Transformer(VGGT)的特征对齐,确保几何理解被深度集成到驱动动作预测的多模态表示中。通过这种几何蒸馏机制在Bridge数据集上进行预训练,GLaD在四个LIBERO任务套件中实现了94.1%的平均成功率,优于使用相同预训练数据的UniVLA(92.5%)。这些结果验证了几何感知预训练增强了空间推理和策略泛化能力,而无需显式的深度传感器或3D标注。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在很大程度上依赖于RGB图像信息,而忽略了场景中的几何信息。这导致模型在需要复杂空间推理和操作的任务中表现不佳,例如机器人操作任务。现有方法缺乏对几何信息的有效利用,限制了模型的泛化能力和鲁棒性。
核心思路:GLaD的核心思路是通过知识蒸馏,将几何信息从一个预训练的几何感知视觉Transformer(VGGT)传递到VLA模型中的大型语言模型(LLM)。具体来说,GLaD不是直接将几何特征蒸馏到视觉编码器,而是将LLM中与视觉token对应的隐藏状态与VGGT的特征对齐。这样做的目的是将几何理解更深入地集成到多模态表示中,从而增强模型的空间推理能力。
技术框架:GLaD框架包含一个视觉编码器、一个大型语言模型(LLM)和一个几何感知视觉Transformer(VGGT)。VGGT是一个预训练的、冻结的几何感知模型,用于提取场景的几何特征。视觉编码器将RGB图像转换为视觉token,然后输入到LLM中。在预训练期间,GLaD使用知识蒸馏损失,将LLM中与视觉token对应的隐藏状态与VGGT的特征对齐。这样,LLM就可以学习到场景的几何信息,从而提高其空间推理能力。
关键创新:GLaD的关键创新在于其几何潜在蒸馏机制。与传统的知识蒸馏方法不同,GLaD不是直接将几何特征蒸馏到视觉编码器,而是将LLM的隐藏状态与VGGT的特征对齐。这种方法可以更有效地将几何信息集成到多模态表示中,从而提高模型的空间推理能力。此外,GLaD使用冻结的VGGT,避免了对VLA模型进行额外的3D标注或深度传感器数据的需求。
关键设计:GLaD的关键设计包括:1) 使用预训练的、冻结的VGGT作为几何信息的来源;2) 使用知识蒸馏损失,将LLM的隐藏状态与VGGT的特征对齐;3) 在Bridge数据集上进行预训练,并使用LIBERO任务套件进行评估。具体的损失函数包括一个用于对齐LLM隐藏状态和VGGT特征的均方误差损失,以及标准的语言建模损失。网络结构方面,GLaD可以使用各种现有的VLA模型作为基础架构,例如UniVLA。
🖼️ 关键图片
📊 实验亮点
GLaD在四个LIBERO任务套件上取得了显著的性能提升,平均成功率达到94.1%,超过了使用相同预训练数据的UniVLA(92.5%)。这一结果表明,几何感知预训练可以有效地增强VLA模型的空间推理能力,而无需显式的深度传感器或3D标注。实验结果验证了GLaD的有效性和优越性。
🎯 应用场景
GLaD在机器人操作、自动驾驶、增强现实等领域具有广泛的应用前景。通过增强VLA模型的空间推理能力,GLaD可以帮助机器人更好地理解和操作周围环境,从而实现更智能、更自主的机器人系统。在自动驾驶领域,GLaD可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。在增强现实领域,GLaD可以帮助用户更自然地与虚拟环境进行交互。
📄 摘要(原文)
Most existing Vision-Language-Action (VLA) models rely primarily on RGB information, while ignoring geometric cues crucial for spatial reasoning and manipulation. In this work, we introduce GLaD, a geometry-aware VLA framework that incorporates 3D geometric priors during pretraining through knowledge distillation. Rather than distilling geometric features solely into the vision encoder, we align the LLM's hidden states corresponding to visual tokens with features from a frozen geometry-aware vision transformer (VGGT), ensuring that geometric understanding is deeply integrated into the multimodal representations that drive action prediction. Pretrained on the Bridge dataset with this geometry distillation mechanism, GLaD achieves 94.1% average success rate across four LIBERO task suites, outperforming UniVLA (92.5%) which uses identical pretraining data. These results validate that geometry-aware pretraining enhances spatial reasoning and policy generalization without requiring explicit depth sensors or 3D annotations.