MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

📄 arXiv: 2503.20384v2 📥 PDF

作者: Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Yuan Du, Shanghang Zhang

分类: cs.RO, cs.AI

发布日期: 2025-03-26 (更新: 2025-04-14)


💡 一句话要点

提出MoLe-VLA,通过动态层跳跃和知识蒸馏提升机器人操作效率和性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 多模态大语言模型 动态层跳跃 知识蒸馏 模型稀疏化 空间-时间感知 认知能力

📋 核心要点

  1. 现有MLLM在机器人操作中计算和存储需求高,限制了实际部署。
  2. MoLe-VLA通过动态层跳跃和混合专家机制,选择性激活LLM层,降低计算成本。
  3. 实验表明,MoLe-VLA在RLBench和真实环境中,成功率提升8%,计算成本降低5.6倍。

📝 摘要(中文)

多模态大型语言模型(MLLM)擅长理解复杂的语言和视觉数据,使通用机器人系统能够解释指令并执行具体任务。然而,它们在实际部署中受到巨大的计算和存储需求的阻碍。最近对LLM层中同质模式的见解启发了稀疏化技术来应对这些挑战,例如提前退出和token剪枝。然而,这些方法通常忽略了最终层的关键作用,这些层编码了与下游机器人任务最相关的语义信息。与神经科学中浅层大脑假说(SBH)的最新突破以及模型稀疏化中的混合专家相一致,我们将每个LLM层概念化为一个专家,并提出了一种混合层视觉-语言-动作模型(MoLe-VLA,或简称MoLe)架构,用于动态LLM层激活。我们引入了一个空间-时间感知路由器(STAR)用于MoLe,以根据机器人的当前状态选择性地激活部分层,模仿大脑专门用于认知和因果推理的不同信号通路。此外,为了弥补MoLe中LLM损失的认知能力,我们设计了一个认知自知识蒸馏(CogKD)框架。CogKD通过利用认知特征来增强对任务需求的理解并改进任务相关动作序列的生成。在RLBench模拟和真实环境中进行的大量实验证明了MoLe-VLA在效率和性能方面的优越性。具体来说,与标准LLM相比,MoLe-VLA在十个任务中的平均成功率提高了8%,同时将计算成本降低了高达5.6倍。

🔬 方法详解

问题定义:现有基于MLLM的机器人操作方法面临着计算资源消耗过大的问题,难以在资源受限的机器人平台上部署。现有的稀疏化方法,如提前退出和token剪枝,往往忽略了LLM最后几层的重要性,导致性能下降。

核心思路:受到浅层大脑假说和混合专家模型的启发,将LLM的每一层视为一个专家,并根据机器人的状态动态地选择激活部分层。通过空间-时间感知路由器(STAR)来决定哪些层需要被激活,从而减少计算量。同时,利用认知自知识蒸馏(CogKD)来弥补由于层跳跃而损失的认知能力。

技术框架:MoLe-VLA包含三个主要模块:视觉-语言编码器、空间-时间感知路由器(STAR)和动作解码器。视觉-语言编码器将视觉和语言输入转换为统一的特征表示。STAR根据机器人的当前状态,动态地选择激活LLM中的哪些层。动作解码器根据激活的LLM层的输出生成动作序列。CogKD框架用于知识蒸馏,提升模型认知能力。

关键创新:核心创新在于动态层跳跃机制和空间-时间感知路由器(STAR)。与静态的层选择方法不同,STAR能够根据机器人的状态自适应地选择激活的层,从而在保证性能的同时显著降低计算成本。CogKD框架通过知识蒸馏弥补了层跳跃带来的认知能力损失。

关键设计:STAR的设计考虑了空间和时间信息,利用卷积神经网络提取视觉特征,并结合时间序列模型处理历史状态信息。CogKD框架使用教师-学生模型,将完整LLM的知识迁移到MoLe-VLA中。损失函数包括动作预测损失和知识蒸馏损失,共同优化模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MoLe-VLA在RLBench模拟和真实环境中进行了广泛的实验验证。结果表明,与标准LLM相比,MoLe-VLA在十个任务中的平均成功率提高了8%,同时将计算成本降低了高达5.6倍。这表明MoLe-VLA在效率和性能方面都具有显著的优势。

🎯 应用场景

MoLe-VLA适用于各种机器人操作任务,尤其是在计算资源受限的场景下,如移动机器人、无人机和家庭服务机器人。该方法可以降低机器人系统的功耗,延长电池续航时间,并提高响应速度。未来,该技术可应用于更复杂的机器人任务,如自主导航、物体识别和人机协作。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) excel in understanding complex language and visual data, enabling generalist robotic systems to interpret instructions and perform embodied tasks. Nevertheless, their real-world deployment is hindered by substantial computational and storage demands. Recent insights into the homogeneous patterns in the LLM layer have inspired sparsification techniques to address these challenges, such as early exit and token pruning. However, these methods often neglect the critical role of the final layers that encode the semantic information most relevant to downstream robotic tasks. Aligning with the recent breakthrough of the Shallow Brain Hypothesis (SBH) in neuroscience and the mixture of experts in model sparsification, we conceptualize each LLM layer as an expert and propose a Mixture-of-Layers Vision-Language-Action model (MoLe-VLA, or simply MoLe) architecture for dynamic LLM layer activation. We introduce a Spatial-Temporal Aware Router (STAR) for MoLe to selectively activate only parts of the layers based on the robot's current state, mimicking the brain's distinct signal pathways specialized for cognition and causal reasoning. Additionally, to compensate for the cognitive ability of LLMs lost in MoLe, we devise a Cognition Self-Knowledge Distillation (CogKD) framework. CogKD enhances the understanding of task demands and improves the generation of task-relevant action sequences by leveraging cognitive features. Extensive experiments conducted in both RLBench simulation and real-world environments demonstrate the superiority of MoLe-VLA in both efficiency and performance. Specifically, MoLe-VLA achieves an 8% improvement in the mean success rate across ten tasks while reducing computational costs by up to x5.6 compared to standard LLMs.