A Survey on Efficient Vision-Language-Action Models
作者: Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Zheng Wang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
分类: cs.CV, cs.AI, cs.LG, cs.RO
发布日期: 2025-10-27 (更新: 2026-02-02)
备注: 28 pages, 8 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
对高效视觉-语言-动作模型进行综述,旨在弥合数字知识与物理世界交互的鸿沟。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 具身智能 模型压缩 高效训练 数据收集 机器人 深度学习
📋 核心要点
- 现有视觉-语言-动作模型(VLAs)依赖大规模架构,面临着巨大的计算和数据需求,限制了其应用。
- 本综述旨在构建一个统一的框架,对高效VLA模型进行系统性地组织和分类,涵盖模型设计、训练和数据收集三个方面。
- 通过对现有方法的批判性回顾,总结了代表性应用、关键挑战,并为未来研究规划了路线图,为社区提供参考。
📝 摘要(中文)
视觉-语言-动作模型(VLAs)是具身智能领域的重要前沿,旨在弥合数字知识与物理世界交互的鸿沟。尽管基础VLAs表现出色,但其大规模架构固有的巨大计算和数据需求阻碍了发展。近年来,大量研究致力于提高VLA的效率,但该领域缺乏统一的框架来整合这些不同的进展。为了弥补这一差距,本综述首次全面回顾了高效视觉-语言-动作模型(Efficient VLAs),涵盖了整个模型-训练-数据流程。具体而言,我们引入了一个统一的分类法来系统地组织该领域中的不同工作,将当前技术分为三个核心支柱:(1)高效模型设计,侧重于高效架构和模型压缩;(2)高效训练,减少模型学习期间的计算负担;(3)高效数据收集,解决获取和利用机器人数据方面的瓶颈。通过对该框架内最先进方法的批判性回顾,本综述不仅为社区建立了基础参考,还总结了代表性应用,描绘了关键挑战,并规划了未来的研究路线图。我们维护一个持续更新的项目页面,以跟踪我们的最新进展:https://evla-survey.github.io/。
🔬 方法详解
问题定义:视觉-语言-动作模型旨在使智能体能够理解视觉和语言信息,并执行相应的动作。然而,现有VLA模型通常参数量巨大,计算复杂度高,训练数据需求量大,难以在资源受限的环境中部署和应用。因此,如何提高VLA模型的效率,降低计算和数据成本,是当前研究面临的关键问题。
核心思路:本综述的核心思路是将现有的高效VLA模型研究工作,按照模型设计、训练和数据收集三个维度进行系统性地分类和组织。通过分析每个维度下的代表性方法,总结其优缺点,并探讨未来的研究方向。这种分类方法有助于研究人员更好地理解VLA效率提升的整体图景,并找到适合自身研究方向的切入点。
技术框架:本综述构建了一个三支柱的分类框架:(1) 高效模型设计:包括模型压缩(如剪枝、量化、知识蒸馏)和高效架构设计(如轻量级卷积、注意力机制优化)。(2) 高效训练:包括减少计算负担的方法(如梯度累积、混合精度训练)和加速收敛的方法(如迁移学习、自监督学习)。(3) 高效数据收集:包括数据增强、模拟数据生成和主动学习等方法,以减少对大量真实世界数据的依赖。
关键创新:本综述的关键创新在于提出了一个统一的分类框架,将分散在不同研究方向上的高效VLA方法整合起来。以往的研究往往侧重于某个特定的效率提升技术,缺乏对整个VLA流程的系统性考虑。本综述通过构建三支柱框架,弥补了这一不足,为研究人员提供了一个更全面的视角。
关键设计:本综述本身不涉及具体的技术设计,而是对现有技术的分类和总结。例如,在模型压缩方面,介绍了剪枝、量化和知识蒸馏等方法;在高效训练方面,介绍了梯度累积、混合精度训练和迁移学习等方法。这些方法各有优缺点,适用于不同的场景和任务。综述中对这些方法的适用性和局限性进行了分析。
🖼️ 关键图片
📊 实验亮点
本综述总结了近年来在高效VLA模型方面的研究进展,涵盖了模型设计、训练和数据收集三个方面。例如,在模型压缩方面,知识蒸馏可以将大型VLA模型的知识迁移到小型模型,从而在保持性能的同时显著降低计算复杂度。在数据收集方面,模拟数据生成可以有效缓解真实世界数据获取的瓶颈,降低训练成本。具体性能提升数据未知,需要参考综述中引用的原始论文。
🎯 应用场景
高效视觉-语言-动作模型在机器人导航、智能家居、自动驾驶等领域具有广泛的应用前景。通过降低计算和数据成本,可以使VLA模型更容易部署在资源受限的设备上,从而实现更智能、更自主的机器人系统。此外,高效VLA模型还可以促进人机协作,提高工作效率和生活质量。
📄 摘要(原文)
Vision-Language-Action models (VLAs) represent a significant frontier in embodied intelligence, aiming to bridge digital knowledge with physical-world interaction. Despite their remarkable performance, foundational VLAs are hindered by the prohibitive computational and data demands inherent to their large-scale architectures. While a surge of recent research has focused on enhancing VLA efficiency, the field lacks a unified framework to consolidate these disparate advancements. To bridge this gap, this survey presents the first comprehensive review of Efficient Vision-Language-Action models (Efficient VLAs) across the entire model-training-data pipeline. Specifically, we introduce a unified taxonomy to systematically organize the disparate efforts in this domain, categorizing current techniques into three core pillars: (1) Efficient Model Design, focusing on efficient architectures and model compression; (2) Efficient Training, which reduces computational burdens during model learning; and (3) Efficient Data Collection, which addresses the bottlenecks in acquiring and utilizing robotic data. Through a critical review of state-of-the-art methods within this framework, this survey not only establishes a foundational reference for the community but also summarizes representative applications, delineates key challenges, and charts a roadmap for future research. We maintain a continuously updated project page to track our latest developments: https://evla-survey.github.io/.