ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models

作者: Ye Li, Huanan Liu, Kangye Ji, Yuan Meng, Jiajun Fan, Yuansong Wang, Shiyu Qin, Chenglei Wu, Shu-Tao Xia, Zhi Wang

分类: cs.RO

发布日期: 2026-05-28

💡 一句话要点

ElegantVLA：通过学习何时思考，加速高效的视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人控制 动态计算调度 模型加速 实时推理

📋 核心要点

现有VLA模型计算成本高，控制频率受限，难以满足实时机器人操作的需求，且缺乏对不同控制步骤推理需求差异的考虑。
ElegantVLA通过引入轻量级调度器，根据视觉-语言表示稳定性、机器人运动线索和episode进度，动态分配计算资源，实现模型加速。
实验表明，ElegantVLA在GR00T和CogACT上分别实现了高达2.55倍和3.77倍的加速，并在真实机器人任务中显著提升了控制频率。

📝 摘要（中文）

视觉-语言-动作（VLA）模型是通用机器人控制的强大范例。然而，其高计算成本和有限的控制频率阻碍了实时机器人操作，尤其是在大型视觉-语言骨干网络和迭代动作头在每个控制步骤都运行时。现有的VLA加速方法通常优化单个组件或依赖于固定的加速规则，以几乎固定的计算量对待不同的控制步骤，并忽略了序列化具身控制的非均匀推理需求。受到人类运动控制的启发，认知和反馈资源集中在目标敏感阶段，我们认为VLA模型应该学习何时投入全部计算，何时重用先前的计算。我们提出了ElegantVLA，一个插件式的阶段自适应推理框架，通过模型内的动态计算调度来加速VLA模型。ElegantVLA引入了一个轻量级的调度器，它观察时间表示相似性、机器人运动线索和episode进度，以联合分配视觉编码器、LLM和动作头的计算。对于感知-语言推理，调度器根据视觉-语言表示的稳定性选择五级视觉-LLM计算模式，从完全重新计算到多步时间重用。对于动作生成，它选择三级去噪模式，在稳定运动期间重用中间去噪状态，同时为目标敏感阶段保留完全细化。通过协调这些决策，ElegantVLA为具有显式动作生成模块的现代VLA管道提供了一个通用的加速框架，而无需修改或重新训练基础模型。在GR00T和CogACT上的实验实现了高达2.55倍和3.77倍的加速，在六个真实世界的GR00T任务中，ElegantVLA将计算量减少了2.18倍，同时将控制频率从13.8 Hz提高到26.3 Hz。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作（VLA）模型计算成本高昂，难以实现实时机器人控制的问题。现有方法通常采用固定计算量处理每个控制步骤，忽略了序列化具身控制中非均匀的推理需求，导致计算资源的浪费和控制频率的限制。

核心思路：ElegantVLA的核心思想是模仿人类运动控制的机制，即在目标敏感阶段投入更多计算资源，而在稳定阶段则重用先前的计算结果。通过学习何时进行完全计算，何时重用先前计算，实现VLA模型的动态计算调度，从而在保证性能的同时降低计算成本。

技术框架：ElegantVLA是一个插件式的阶段自适应推理框架，包含一个轻量级调度器，用于根据当前状态动态调整视觉编码器、LLM和动作头的计算量。整体流程如下：首先，调度器观察时间表示相似性、机器人运动线索和episode进度等信息。然后，根据这些信息，调度器为视觉-LLM选择五级计算模式（从完全重新计算到多步时间重用），并为动作生成选择三级去噪模式（重用中间去噪状态或完全细化）。最后，根据选择的计算模式执行推理，并输出动作。

关键创新：ElegantVLA的关键创新在于其动态计算调度机制，能够根据环境和任务需求自适应地调整计算资源分配。与现有方法相比，ElegantVLA不再采用固定的计算模式，而是根据当前状态动态地选择合适的计算模式，从而在保证性能的同时显著降低计算成本。此外，ElegantVLA是一个插件式框架，无需修改或重新训练基础模型即可使用。

关键设计：ElegantVLA的调度器是其核心组件，其设计目标是轻量级和高效。调度器使用时间表示相似性、机器人运动线索和episode进度作为输入特征。时间表示相似性通过计算相邻时间步的视觉-语言表示的余弦相似度来衡量。机器人运动线索包括关节速度和末端执行器速度等信息。Episode进度通过当前时间步与总时间步的比率来衡量。调度器使用一个小型神经网络来预测视觉-LLM的计算模式和动作生成的去噪模式。损失函数包括分类损失和回归损失，用于训练调度器预测正确的计算模式和去噪模式。

🖼️ 关键图片

📊 实验亮点

ElegantVLA在GR00T和CogACT上分别实现了高达2.55倍和3.77倍的加速。在六个真实世界的GR00T任务中，ElegantVLA将计算量减少了2.18倍，同时将控制频率从13.8 Hz提高到26.3 Hz。这些结果表明，ElegantVLA能够显著提高VLA模型的效率，并使其能够更好地应用于实时机器人控制。

🎯 应用场景

ElegantVLA具有广泛的应用前景，可用于各种需要实时机器人控制的场景，例如工业自动化、家庭服务机器人、医疗机器人等。通过降低VLA模型的计算成本，ElegantVLA可以使这些模型在资源受限的平台上运行，从而扩展了VLA模型的应用范围。此外，ElegantVLA的动态计算调度机制也可以应用于其他类型的深度学习模型，以提高其效率。

📄 摘要（原文）

Vision-Language-Action (VLA) models are a powerful paradigm for generalist robotic control. However, their high computational cost and limited control frequency hinder real-time robotic manipulation, especially when large vision-language backbones and iterative action heads run at every control step. Existing VLA acceleration methods often optimize individual components or rely on fixed acceleration rules, treating different control steps with largely fixed computation and overlooking the non-uniform reasoning demands of sequential embodied control. Inspired by human motor control, where cognitive and feedback resources concentrate on goal-sensitive stages, we argue that VLA models should learn when to invest full computation and when to reuse prior computation. We propose ElegantVLA, a plug-in phase-adaptive inference framework that accelerates VLA models through intra-model dynamic compute scheduling. ElegantVLA introduces a lightweight scheduler that observes temporal representation similarity, robot-motion cues, and episode progress to jointly allocate computation across the vision encoder, LLM, and action head. For perception-language reasoning, the scheduler selects a five-level Vision-LLM compute mode, from full recomputation to multi-step temporal reuse, based on visual-language representation stability. For action generation, it selects a three-level denoising mode, reusing intermediate denoising states during stable motion while preserving full refinement for goal-sensitive stages. By coordinating these decisions, ElegantVLA offers a general acceleration framework for modern VLA pipelines with explicit action-generation modules, without modifying or retraining the base model. Experiments on GR00T and CogACT achieve up to 2.55x and 3.77x speedup, and on six real-world GR00T tasks ElegantVLA cuts computation by 2.18x while raising control frequency from 13.8 Hz to 26.3 Hz.

ElegantVLA: Learning When to Think for Efficient Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理