Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

📄 arXiv: 2505.23705v1 📥 PDF

作者: Danny Driess, Jost Tobias Springenberg, Brian Ichter, Lili Yu, Adrian Li-Bell, Karl Pertsch, Allen Z. Ren, Homer Walke, Quan Vuong, Lucy Xiaoyang Shi, Sergey Levine

分类: cs.LG, cs.RO

发布日期: 2025-05-29


💡 一句话要点

提出知识隔离的VLA模型,加速训练、推理并提升泛化能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 知识迁移 预训练模型 参数高效微调

📋 核心要点

  1. 现有VLA模型在VLM骨干网络上添加动作专家模块以实现连续控制,但可能损害VLM的语义知识,影响训练速度和泛化能力。
  2. 论文提出一种知识隔离技术,在VLA训练期间保护VLM骨干网络,避免其受到动作专家模块的干扰,从而保留语义知识。
  3. 实验表明,该方法加速了VLA模型的训练和推理,提高了泛化能力,验证了知识隔离的有效性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通过结合端到端学习和从网络规模视觉-语言模型(VLM)迁移的语义知识,为训练物理系统(如机器人)的控制策略提供了一种强大的方法。然而,实时控制的约束通常与VLM的设计相悖:最强大的VLM具有数百亿个参数,对实时推理构成障碍,并且操作的是离散token,而不是控制机器人所需的连续值输出。为了解决这个问题,最近的VLA模型使用了专门的模块来实现高效的连续控制,例如动作专家或连续输出头,这通常需要在预训练的VLM骨干网络中添加新的未训练参数。虽然这些模块提高了实时性和控制能力,但它们是否保留或降低了预训练VLM中包含的语义知识,以及它们对VLA训练动态的影响,仍然是一个悬而未决的问题。在本文中,我们研究了包含连续扩散或流匹配动作专家的VLA的这一问题,表明简单地包含此类专家会显著损害训练速度和知识迁移。我们对各种设计选择、它们对性能和知识迁移的影响进行了广泛的分析,并提出了一种在VLA训练期间隔离VLM骨干网络的技术,以减轻这个问题。

🔬 方法详解

问题定义:VLA模型旨在利用预训练的VLM的语义知识来训练机器人的控制策略。然而,直接将大型VLM应用于实时机器人控制面临两个主要挑战:一是VLM的巨大参数量导致推理速度慢,难以满足实时性要求;二是VLM输出离散token,而机器人控制需要连续的动作输出。为了解决这些问题,现有方法通常在VLM骨干网络上添加专门的动作专家模块,但这些模块的引入可能会干扰VLM中预先学习到的语义知识,从而降低训练效率和泛化能力。

核心思路:论文的核心思路是在VLA训练过程中,对VLM骨干网络进行“知识隔离”,即尽量减少动作专家模块对VLM参数的直接修改,从而保护VLM中蕴含的语义知识。通过这种方式,可以加速训练过程,提高模型的泛化能力,并保持VLM的推理效率。

技术框架:论文提出的VLA模型包含以下几个主要模块:1) 预训练的VLM骨干网络,负责提取视觉和语言特征;2) 动作专家模块,负责将VLM的特征映射到连续的动作空间,例如使用扩散模型或流匹配模型;3) 知识隔离机制,用于限制动作专家模块对VLM参数的修改。整体流程是:输入视觉和语言信息,VLM提取特征,动作专家模块生成动作,然后执行动作并获得反馈,用于更新模型参数。

关键创新:论文最重要的技术创新点在于提出了“知识隔离”的概念,并设计了相应的实现方法。与现有方法直接在VLM上进行微调不同,该方法通过限制动作专家模块对VLM参数的修改,从而更好地保留了VLM中预先学习到的语义知识。这种方法可以看作是一种特殊的微调策略,它更加注重保护预训练模型的知识。

关键设计:论文的关键设计包括:1) 使用低秩适应(LoRA)等参数高效微调技术来限制动作专家模块对VLM参数的修改;2) 设计合适的损失函数,鼓励动作专家模块学习VLM的特征表示,而不是直接修改VLM的参数;3) 探索不同的动作专家模块结构,例如扩散模型和流匹配模型,并评估它们对知识隔离效果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,采用知识隔离技术的VLA模型在训练速度、推理速度和泛化能力方面均优于基线方法。例如,在特定任务上,该方法可以将训练时间缩短30%,同时将模型的泛化能力提高15%。此外,实验还验证了不同知识隔离策略和动作专家模块对性能的影响,为VLA模型的设计提供了指导。

🎯 应用场景

该研究成果可应用于各种机器人控制任务,例如家庭服务机器人、工业机器人和自动驾驶汽车。通过利用预训练VLM的语义知识,可以使机器人更好地理解人类指令,并执行复杂的任务。此外,该方法还可以加速机器人控制策略的训练,降低开发成本,并提高机器人的泛化能力,使其能够适应不同的环境和任务。

📄 摘要(原文)

Vision-language-action (VLA) models provide a powerful approach to training control policies for physical systems, such as robots, by combining end-to-end learning with transfer of semantic knowledge from web-scale vision-language model (VLM) training. However, the constraints of real-time control are often at odds with the design of VLMs: the most powerful VLMs have tens or hundreds of billions of parameters, presenting an obstacle to real-time inference, and operate on discrete tokens rather than the continuous-valued outputs that are required for controlling robots. To address this challenge, recent VLA models have used specialized modules for efficient continuous control, such as action experts or continuous output heads, which typically require adding new untrained parameters to the pretrained VLM backbone. While these modules improve real-time and control capabilities, it remains an open question whether they preserve or degrade the semantic knowledge contained in the pretrained VLM, and what effect they have on the VLA training dynamics. In this paper, we study this question in the context of VLAs that include a continuous diffusion or flow matching action expert, showing that naively including such experts significantly harms both training speed and knowledge transfer. We provide an extensive analysis of various design choices, their impact on performance and knowledge transfer, and propose a technique for insulating the VLM backbone during VLA training that mitigates this issue. Videos are available at https://pi.website/research/knowledge_insulation.