DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

作者: Zebin Yang, Yijiahao Qi, Tong Xie, Bo Yu, Shaoshan Liu, Meng Li

分类: cs.RO

发布日期: 2026-02-28

💡 一句话要点

DySL-VLA：基于动态-静态层跳跃的机器人操作高效视觉-语言-动作模型推理

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 动态层跳跃 知识蒸馏 模型加速 实时推理 计算效率

📋 核心要点

VLA模型在机器人操作中表现出色，但计算成本高昂，限制了实时应用。
DySL-VLA通过动态跳过VLA层，根据动作重要性调整计算量，降低了计算成本。
实验表明，DySL-VLA在精度提升的同时，显著减少了参数量并实现了加速。

📝 摘要（中文）

视觉-语言-动作（VLA）模型通过融合语言模型的推理能力和视觉模型的3D理解能力，在机器人操作等任务中取得了显著成功。然而，其高计算成本仍然是需要实时性能的实际应用的主要障碍。我们观察到，任务中的动作具有不同程度的重要性：关键步骤需要高精度，而不太重要的步骤可以容忍更多差异。利用这一洞察力，我们提出了DySL-VLA，这是一种新颖的框架，通过基于每个动作的重要性动态跳过VLA层来解决计算成本问题。DySL-VLA将其层分为两种类型：信息层（始终执行）和增量层（可以选择性地跳过）。为了在不牺牲准确性的情况下智能地跳过层，我们发明了一种先验-后验跳过指导机制，以确定何时启动层跳过。我们还提出了一种skip-aware的两阶段知识蒸馏算法，以有效地将标准VLA训练为DySL-VLA。我们的实验表明，在Calvin数据集上，DySL-VLA的成功长度比Deer-VLA提高了2.1％，同时将可训练参数减少了85.7倍，并且在等精度下，相对于RoboFlamingo基线提供了3.75倍的加速。我们的代码在此https URL上可用。

🔬 方法详解

问题定义：现有VLA模型在机器人操作任务中计算量巨大，难以满足实时性要求。虽然VLA模型在机器人操作任务中表现出色，但其高计算成本阻碍了实际应用，尤其是在需要快速响应的场景中。现有方法难以在精度和效率之间取得平衡。

核心思路：论文的核心思想是利用机器人操作任务中不同动作的重要性差异，动态地调整VLA模型的计算量。关键步骤需要高精度，因此执行所有层；不重要的步骤可以容忍一定的误差，因此跳过部分层，从而降低整体计算成本。这种动态调整策略能够在保证任务成功率的前提下，显著提升推理速度。

技术框架：DySL-VLA框架包含以下几个主要模块：1) VLA模型：作为基础模型，负责视觉、语言和动作信息的融合。2) 层分类模块：将VLA模型中的层分为信息层（始终执行）和增量层（可跳过）。3) 跳过指导机制：基于先验（prior）和后验（posterior）信息，决定何时跳过增量层。4) 知识蒸馏模块：将标准VLA模型的知识迁移到DySL-VLA模型，保证精度。

关键创新：该论文的关键创新在于动态层跳跃机制和skip-aware的两阶段知识蒸馏算法。动态层跳跃机制能够根据动作的重要性自适应地调整计算量，而skip-aware的知识蒸馏算法能够有效地训练DySL-VLA模型，避免因层跳跃导致的性能下降。与现有方法相比，DySL-VLA能够在保证精度的前提下，显著降低计算成本。

关键设计：跳过指导机制使用先验信息（例如，动作的类型）和后验信息（例如，模型对当前状态的置信度）来决定是否跳过增量层。知识蒸馏算法分为两个阶段：第一阶段，使用标准VLA模型的输出作为目标，训练DySL-VLA模型；第二阶段，使用skip-aware损失函数，鼓励DySL-VLA模型学习在不同层跳跃情况下的行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DySL-VLA在Calvin数据集上，成功长度比Deer-VLA提高了2.1%，同时将可训练参数减少了85.7倍，并且在等精度下，相对于RoboFlamingo基线提供了3.75倍的加速。这些数据表明，DySL-VLA在精度、参数量和推理速度方面都取得了显著的提升。

🎯 应用场景

该研究成果可应用于各种需要实时机器人操作的场景，例如自动驾驶、智能制造、医疗机器人等。通过降低VLA模型的计算成本，可以使这些应用更加高效和可靠。未来，该技术有望推动机器人技术在更广泛领域的应用。

📄 摘要（原文）

Vision-Language-Action (VLA) models have shown remarkable success in robotic tasks like manipulation by fusing a language model's reasoning with a vision model's 3D understanding. However, their high computational cost remains a major obstacle for real-world applications that require real-time performance. We observe that the actions within a task have varying levels of importance: critical steps demand high precision, while less important ones can tolerate more variance. Leveraging this insight, we propose DySL-VLA, a novel framework that addresses computational cost by dynamically skipping VLA layers based on each action's importance. DySL-VLA categorizes its layers into two types: informative layers, which are consistently executed, and incremental layers, which can be selectively skipped. To intelligently skip layers without sacrificing accuracy, we invent a prior-post skipping guidance mechanism to determine when to initiate layer-skipping. We also propose a skip-aware two-stage knowledge distillation algorithm to efficiently train a standard VLA into a DySL-VLA. Our experiments indicate that DySL-VLA achieves 2.1% improvement in success length over Deer-VLA on the Calvin dataset, while simultaneously reducing trainable parameters by a factor of 85.7 and providing a 3.75x speedup relative to the RoboFlamingo baseline at iso-accuracy. Our code is available onthis https URL.

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理