A Survey on Efficient Vision-Language-Action Models

📄 arXiv: 2510.24795v1 📥 PDF

作者: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-10-27

备注: 26 pages, 8 figures


💡 一句话要点

对高效视觉-语言-动作模型(Efficient VLA)的综述,旨在降低计算和数据需求。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 具身智能 高效模型 模型压缩 高效训练 数据收集 机器人 综述

📋 核心要点

  1. 现有VLA模型计算和数据需求巨大,阻碍了其在资源受限环境中的部署。
  2. 该综述对Efficient VLA进行全面回顾,从数据、模型和训练三个维度系统地组织现有方法。
  3. 总结了Efficient VLA的代表性应用、关键挑战,并为未来研究方向提供了指导。

📝 摘要(中文)

视觉-语言-动作模型(VLA)是具身智能领域的重要前沿,旨在连接数字知识与物理世界交互。尽管这些模型展示了卓越的通用能力,但其部署受到底层大规模基础模型带来的巨大计算和数据需求的严重阻碍。为了应对这些挑战,本综述首次全面回顾了整个数据-模型-训练过程中的高效视觉-语言-动作模型(Efficient VLA)。具体而言,我们引入了一个统一的分类法来系统地组织该领域中的不同工作,将当前技术分为三个核心支柱:(1)高效模型设计,侧重于高效架构和模型压缩;(2)高效训练,减少模型学习期间的计算负担;(3)高效数据收集,解决获取和利用机器人数据的瓶颈。通过对该框架内最先进方法的批判性回顾,本综述不仅为社区建立了基础参考,还总结了代表性应用,描述了关键挑战,并规划了未来研究的路线图。我们维护一个持续更新的项目页面来跟踪我们的最新进展:https://evla-survey.github.io/

🔬 方法详解

问题定义:现有视觉-语言-动作模型(VLA)虽然在具身智能领域展现出强大的能力,但其对计算资源和数据的需求非常高,这限制了它们在实际机器人应用中的部署,尤其是在资源有限的场景下。因此,如何降低VLA模型的计算复杂度和数据依赖性,实现高效的VLA,是当前面临的关键问题。

核心思路:该综述的核心思路是将现有的Efficient VLA方法按照数据、模型和训练三个维度进行系统性地组织和分类。通过这种分类,可以更清晰地理解不同方法之间的联系和区别,从而为研究人员提供一个全面的视角,并促进新的高效VLA方法的设计。

技术框架:该综述构建了一个统一的分类框架,将Efficient VLA方法分为三个核心支柱:(1) 高效模型设计:关注模型架构的优化和模型压缩技术,例如知识蒸馏、剪枝等;(2) 高效训练:旨在减少模型训练过程中的计算负担,例如使用更有效的优化算法、减少训练数据量等;(3) 高效数据收集:解决机器人数据获取的瓶颈问题,例如使用模拟数据、数据增强等。

关键创新:该综述的主要创新在于首次对Efficient VLA领域进行了全面的梳理和总结,并提出了一个统一的分类框架。这为研究人员提供了一个清晰的路线图,帮助他们更好地理解现有方法,并找到未来的研究方向。此外,该综述还指出了Efficient VLA领域面临的关键挑战,例如如何在保证性能的同时进一步降低计算复杂度,以及如何有效地利用有限的数据进行训练。

关键设计:该综述本身并没有提出新的技术设计,而是对现有技术进行了分类和总结。但是,在各个分类下,都包含了许多关键的技术细节。例如,在高效模型设计方面,常用的技术包括MobileNet、ShuffleNet等轻量级网络架构,以及模型剪枝、量化、知识蒸馏等模型压缩技术。在高效训练方面,常用的技术包括梯度累积、混合精度训练、知识蒸馏等。在高效数据收集方面,常用的技术包括模拟数据生成、数据增强、主动学习等。

📊 实验亮点

该综述全面回顾了Efficient VLA领域的研究进展,并提出了一个统一的分类框架,为研究人员提供了一个清晰的路线图。通过对现有方法的分析和总结,指出了该领域面临的关键挑战和未来的研究方向。该综述维护了一个持续更新的项目页面,方便研究人员跟踪最新的进展。

🎯 应用场景

该研究成果对机器人、自动驾驶、智能家居等领域具有广泛的应用前景。通过降低VLA模型的计算和数据需求,可以使这些模型更容易部署在资源受限的设备上,从而实现更智能、更高效的机器人应用。例如,可以应用于低功耗的移动机器人,使其能够在复杂环境中执行导航、物体识别和操作等任务。

📄 摘要(原文)

Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. While these models have demonstrated remarkable generalist capabilities, their deployment is severely hampered by the substantial computational and data requirements inherent to their underlying large-scale foundation models. Motivated by the urgent need to address these challenges, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire data-model-training process. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/