A Survey on Efficient Vision-Language-Action Models

作者: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Zheng Wang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-10-27 (更新: 2026-02-02)

备注: 28 pages, 8 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

对高效视觉-语言-动作模型进行综述，旨在弥合数字知识与物理世界交互的鸿沟。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 具身智能 模型压缩 高效训练 数据收集 机器人 深度学习

📋 核心要点

现有视觉-语言-动作模型（VLAs）依赖大规模架构，面临着巨大的计算和数据需求，限制了其应用。
本综述旨在构建一个统一的框架，对高效VLA模型进行系统性地组织和分类，涵盖模型设计、训练和数据收集三个方面。
通过对现有方法的批判性回顾，总结了代表性应用、关键挑战，并为未来研究规划了路线图，为社区提供参考。

📝 摘要（中文）

视觉-语言-动作模型（VLAs）是具身智能领域的重要前沿，旨在弥合数字知识与物理世界交互的鸿沟。尽管基础VLAs表现出色，但其大规模架构固有的巨大计算和数据需求阻碍了发展。近年来，大量研究致力于提高VLA的效率，但该领域缺乏统一的框架来整合这些不同的进展。为了弥补这一差距，本综述首次全面回顾了高效视觉-语言-动作模型（Efficient VLAs），涵盖了整个模型-训练-数据流程。具体而言，我们引入了一个统一的分类法来系统地组织该领域中的不同工作，将当前技术分为三个核心支柱：（1）高效模型设计，侧重于高效架构和模型压缩；（2）高效训练，减少模型学习期间的计算负担；（3）高效数据收集，解决获取和利用机器人数据方面的瓶颈。通过对该框架内最先进方法的批判性回顾，本综述不仅为社区建立了基础参考，还总结了代表性应用，描绘了关键挑战，并规划了未来的研究路线图。我们维护一个持续更新的项目页面，以跟踪我们的最新进展：https://evla-survey.github.io/。

🔬 方法详解

问题定义：视觉-语言-动作模型旨在使智能体能够理解视觉和语言信息，并执行相应的动作。然而，现有VLA模型通常参数量巨大，计算复杂度高，训练数据需求量大，难以在资源受限的环境中部署和应用。因此，如何提高VLA模型的效率，降低计算和数据成本，是当前研究面临的关键问题。

核心思路：本综述的核心思路是将现有的高效VLA模型研究工作，按照模型设计、训练和数据收集三个维度进行系统性地分类和组织。通过分析每个维度下的代表性方法，总结其优缺点，并探讨未来的研究方向。这种分类方法有助于研究人员更好地理解VLA效率提升的整体图景，并找到适合自身研究方向的切入点。

技术框架：本综述构建了一个三支柱的分类框架：(1) 高效模型设计：包括模型压缩（如剪枝、量化、知识蒸馏）和高效架构设计（如轻量级卷积、注意力机制优化）。(2) 高效训练：包括减少计算负担的方法（如梯度累积、混合精度训练）和加速收敛的方法（如迁移学习、自监督学习）。(3) 高效数据收集：包括数据增强、模拟数据生成和主动学习等方法，以减少对大量真实世界数据的依赖。

关键创新：本综述的关键创新在于提出了一个统一的分类框架，将分散在不同研究方向上的高效VLA方法整合起来。以往的研究往往侧重于某个特定的效率提升技术，缺乏对整个VLA流程的系统性考虑。本综述通过构建三支柱框架，弥补了这一不足，为研究人员提供了一个更全面的视角。

关键设计：本综述本身不涉及具体的技术设计，而是对现有技术的分类和总结。例如，在模型压缩方面，介绍了剪枝、量化和知识蒸馏等方法；在高效训练方面，介绍了梯度累积、混合精度训练和迁移学习等方法。这些方法各有优缺点，适用于不同的场景和任务。综述中对这些方法的适用性和局限性进行了分析。

🖼️ 关键图片

📊 实验亮点

本综述总结了近年来在高效VLA模型方面的研究进展，涵盖了模型设计、训练和数据收集三个方面。例如，在模型压缩方面，知识蒸馏可以将大型VLA模型的知识迁移到小型模型，从而在保持性能的同时显著降低计算复杂度。在数据收集方面，模拟数据生成可以有效缓解真实世界数据获取的瓶颈，降低训练成本。具体性能提升数据未知，需要参考综述中引用的原始论文。

🎯 应用场景

高效视觉-语言-动作模型在机器人导航、智能家居、自动驾驶等领域具有广泛的应用前景。通过降低计算和数据成本，可以使VLA模型更容易部署在资源受限的设备上，从而实现更智能、更自主的机器人系统。此外，高效VLA模型还可以促进人机协作，提高工作效率和生活质量。

📄 摘要（原文）

Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. Despite their remarkable performance, foundational VLAs are hindered by the prohibitive computational and data demands inherent to their large-scale architectures. While a surge of recent research has focused on enhancing VLA efficiency, the field lacks a unified framework to consolidate these disparate advancements. To bridge this gap, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire model-training-data pipeline. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/.

A Survey on Efficient Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理