DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

作者: Zebin Yang, Yijiahao Qi, Tong Xie, Bo Yu, Shaoshan Liu, Meng Li

分类: cs.RO

发布日期: 2026-02-26 (更新: 2026-02-27)

备注: DAC 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出DySL-VLA，通过动态层跳跃加速机器人操作中的视觉-语言-动作模型推理。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 动态层跳跃 知识蒸馏 模型加速 实时推理 计算效率

📋 核心要点

VLA模型计算成本高昂，阻碍了其在需要实时性的机器人操作任务中的应用。
DySL-VLA通过动态跳过VLA层来降低计算成本，关键在于根据动作重要性自适应调整计算量。
实验表明，DySL-VLA在精度提升的同时，显著减少了参数量和推理时间，加速效果明显。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在机器人操作任务中取得了显著成功，它融合了语言模型的推理能力和视觉模型的3D理解能力。然而，其高计算成本仍然是需要实时性能的实际应用的主要障碍。我们观察到任务中的动作具有不同程度的重要性：关键步骤需要高精度，而不太重要的步骤可以容忍更多差异。基于此，我们提出了DySL-VLA，一种通过基于每个动作的重要性动态跳过VLA层来降低计算成本的新框架。DySL-VLA将其层分为两种类型：始终执行的信息层和可以选择性跳过的增量层。为了在不牺牲准确性的前提下智能地跳过层，我们发明了一种先验-后验跳过指导机制来确定何时启动层跳过。我们还提出了一种skip-aware的两阶段知识蒸馏算法，以有效地将标准VLA训练为DySL-VLA。实验表明，DySL-VLA在Calvin数据集上比Deer-VLA的成功长度提高了2.1%，同时将可训练参数减少了85.7倍，并且在等精度下提供了相对于RoboFlamingo基线3.75倍的加速。我们的代码可在https://github.com/PKU-SEC-Lab/DYSL_VLA上找到。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型在机器人操作任务中表现出色，但其高昂的计算成本限制了它们在实际场景中的应用，尤其是在需要实时响应的场景下。现有的VLA模型通常对所有动作步骤都进行同等程度的计算，忽略了不同动作步骤的重要性差异。

核心思路：论文的核心思路是观察到机器人操作任务中不同动作的重要性不同，关键步骤需要高精度，而次要步骤可以容忍一定的误差。因此，可以通过动态地跳过VLA模型中不必要的层，减少计算量，同时保持关键步骤的精度。这种动态调整计算量的方法能够有效降低整体计算成本。

技术框架：DySL-VLA框架包含以下几个主要模块：首先，将VLA模型中的层分为“信息层”（始终执行）和“增量层”（可选择跳过）。其次，引入“先验-后验跳过指导机制”，根据当前动作的重要性决定是否跳过增量层。该机制基于先验知识（例如动作类型）和后验信息（例如模型预测的置信度）进行判断。最后，使用“skip-aware两阶段知识蒸馏算法”训练DySL-VLA模型，使其在跳过部分层的情况下仍能保持较高的性能。

关键创新：该论文的关键创新在于提出了动态层跳跃(Dynamic Layer Skipping)的思想，并将其应用于VLA模型。与传统的静态模型相比，DySL-VLA能够根据动作的重要性自适应地调整计算量，从而在保证精度的前提下显著降低计算成本。此外，先验-后验跳过指导机制和skip-aware知识蒸馏算法也是重要的技术创新，它们保证了层跳跃的有效性和模型的性能。

关键设计：先验-后验跳过指导机制是关键设计之一，它结合了先验知识（例如动作类型）和后验信息（例如模型预测的置信度）来决定是否跳过增量层。具体来说，可以使用一个小型网络来预测每个增量层的重要性得分，然后根据该得分和预设的阈值来决定是否跳过该层。Skip-aware知识蒸馏算法则通过在训练过程中考虑层跳跃的影响，使得DySL-VLA模型能够更好地适应跳过部分层的情况，从而保持较高的性能。

🖼️ 关键图片

📊 实验亮点

DySL-VLA在Calvin数据集上取得了显著的实验结果。与Deer-VLA相比，成功长度提高了2.1%。更重要的是，DySL-VLA将可训练参数减少了85.7倍，并在保持相同精度的情况下，实现了相对于RoboFlamingo基线3.75倍的推理速度提升。这些结果表明DySL-VLA在降低计算成本和提高推理速度方面具有显著优势。

🎯 应用场景

DySL-VLA在机器人操作领域具有广泛的应用前景，尤其是在资源受限或需要实时响应的场景中。例如，它可以应用于移动机器人、无人机、自动驾驶等领域，提高机器人的智能化水平和自主性。此外，该方法也可以推广到其他深度学习模型中，用于降低计算成本和提高推理速度。

📄 摘要（原文）

Vision-Language-Action (VLA) models have shown remarkable success in robotic tasks like manipulation by fusing a language model's reasoning with a vision model's 3D understanding. However, their high computational cost remains a major obstacle for real-world applications that require real-time performance. We observe that the actions within a task have varying levels of importance: critical steps demand high precision, while less important ones can tolerate more variance. Leveraging this insight, we propose DySL-VLA, a novel framework that addresses computational cost by dynamically skipping VLA layers based on each action's importance. DySL-VLA categorizes its layers into two types: informative layers, which are consistently executed, and incremental layers, which can be selectively skipped. To intelligently skip layers without sacrificing accuracy, we invent a prior-post skipping guidance mechanism to determine when to initiate layer-skipping. We also propose a skip-aware two-stage knowledge distillation algorithm to efficiently train a standard VLA into a DySL-VLA. Our experiments indicate that DySL-VLA achieves 2.1% improvement in success length over Deer-VLA on the Calvin dataset, while simultaneously reducing trainable parameters by a factor of 85.7 and providing a 3.75x speedup relative to the RoboFlamingo baseline at iso-accuracy. Our code is available on https://github.com/PKU-SEC-Lab/DYSL_VLA.

DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理