Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting
作者: Asher J. Hancock, Xindi Wu, Lihan Zha, Olga Russakovsky, Anirudha Majumdar
分类: cs.RO
发布日期: 2025-09-26
💡 一句话要点
提出VLM2VLA,通过语言对齐解决VLM微调为VLA时的灾难性遗忘问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 灾难性遗忘 低秩适应 机器人遥操作 零样本泛化
📋 核心要点
- 现有方法将VLM微调为VLA时,会因数据分布差异导致灾难性遗忘,损害VLM原有的推理和多模态理解能力。
- VLM2VLA通过将低级动作表示为自然语言,在数据层面解决分布不匹配问题,并使用LoRA进行高效微调。
- 实验表明,VLM2VLA在保留VLM核心能力的同时,实现了对新任务的零样本泛化,并支持多语言指令。
📝 摘要(中文)
将视觉-语言模型(VLM)微调到机器人遥操作数据上,以创建视觉-语言-动作(VLA)模型,是训练通用策略的一种有前景的范例。然而,它存在一个根本的权衡:学习产生动作通常会削弱VLM的基础推理和多模态理解,从而阻碍对新场景的泛化、指令跟随和语义理解。我们认为这种灾难性遗忘是由于VLM的互联网规模预训练语料库与机器人微调数据之间的分布不匹配造成的。受此启发,我们引入了VLM2VLA:一种VLA训练范例,它首先在数据层面上通过用自然语言表示低级动作来解决这种不匹配。这种对齐使得仅使用低秩适应(LoRA)来训练VLA成为可能,从而最小程度地修改VLM骨干网络并避免灾难性遗忘。因此,VLM可以在机器人遥操作数据上进行微调,而无需从根本上改变底层架构,也无需在互联网规模的VLM数据集上进行昂贵的协同训练。通过广泛的视觉问答(VQA)研究和超过800个真实世界的机器人实验,我们证明了VLM2VLA保留了VLM的核心能力,从而实现了对需要开放世界语义推理和多语言指令跟随的新任务的零样本泛化。
🔬 方法详解
问题定义:现有方法在将视觉-语言模型(VLM)微调为视觉-语言-动作模型(VLA)时,面临灾难性遗忘的问题。具体来说,VLM在互联网规模的数据上预训练,具备强大的推理和多模态理解能力。然而,直接在机器人遥操作数据上微调VLM会导致其原有能力显著下降,阻碍其在新场景下的泛化能力。现有方法的痛点在于无法有效平衡动作学习和知识保留。
核心思路:VLM2VLA的核心思路是通过数据层面的对齐来解决分布不匹配问题。具体而言,它将低级动作表示为自然语言,从而将机器人遥操作数据转换到与VLM预训练数据相似的分布空间。这种对齐使得可以使用低秩适应(LoRA)等轻量级微调方法,从而最小化对VLM骨干网络的修改,避免灾难性遗忘。这样设计的目的是让VLA模型在学习动作的同时,尽可能保留VLM原有的知识和推理能力。
技术框架:VLM2VLA的整体框架包含以下几个主要步骤:1. 动作语言化:将机器人动作(例如,关节角度、末端执行器位置)转换为自然语言描述。这可以通过预定义的词汇表或更复杂的语言模型来实现。2. LoRA微调:使用LoRA对VLM进行微调,使其能够理解语言化的动作指令并生成相应的动作。LoRA通过在VLM的权重矩阵中添加低秩矩阵来实现高效微调。3. 评估:在各种机器人任务上评估VLA模型的性能,包括指令跟随、目标导向导航等。同时,也评估VLA模型在VQA等任务上的性能,以衡量其知识保留程度。
关键创新:VLM2VLA最重要的技术创新点在于其数据层面的对齐策略。与直接在机器人数据上微调VLM不同,VLM2VLA首先将动作表示为自然语言,从而缩小了机器人数据与VLM预训练数据之间的分布差距。这种方法使得可以使用LoRA等轻量级微调方法,从而避免了灾难性遗忘。与现有方法的本质区别在于,VLM2VLA不是试图直接学习动作,而是将动作学习转化为语言理解问题。
关键设计:在VLM2VLA中,一些关键的设计细节包括:1. 动作语言化方法:论文可能采用了特定的词汇表或语言模型来将动作转换为自然语言。2. LoRA参数设置:LoRA的秩(rank)是一个重要的超参数,它控制了微调的程度。论文可能探索了不同的秩值,以找到最佳的性能。3. 损失函数:论文可能使用了特定的损失函数来训练VLA模型,例如,交叉熵损失或对比损失。4. VLM选择:论文可能使用了特定的VLM作为骨干网络,例如,CLIP或Flamingo。
🖼️ 关键图片
📊 实验亮点
论文通过超过800个真实世界的机器人实验证明了VLM2VLA的有效性。实验结果表明,VLM2VLA在保留VLM核心能力的同时,实现了对新任务的零样本泛化,并支持多语言指令。此外,VLM2VLA在VQA任务上的性能也与原始VLM相当,表明其能够有效避免灾难性遗忘。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
VLM2VLA具有广泛的应用前景,例如,它可以用于训练通用的机器人策略,使其能够理解自然语言指令并执行复杂的任务。此外,VLM2VLA还可以应用于虚拟助手、智能家居等领域,使其能够更好地理解用户的意图并提供相应的服务。该研究的未来影响在于,它为构建具有强大推理和泛化能力的机器人系统提供了一种新的途径。
📄 摘要(原文)
Fine-tuning vision-language models (VLMs) on robot teleoperation data to create vision-language-action (VLA) models is a promising paradigm for training generalist policies, but it suffers from a fundamental tradeoff: learning to produce actions often diminishes the VLM's foundational reasoning and multimodal understanding, hindering generalization to novel scenarios, instruction following, and semantic understanding. We argue that this catastrophic forgetting is due to a distribution mismatch between the VLM's internet-scale pretraining corpus and the robotics fine-tuning data. Inspired by this observation, we introduce VLM2VLA: a VLA training paradigm that first resolves this mismatch at the data level by representing low-level actions with natural language. This alignment makes it possible to train VLAs solely with Low-Rank Adaptation (LoRA), thereby minimally modifying the VLM backbone and averting catastrophic forgetting. As a result, the VLM can be fine-tuned on robot teleoperation data without fundamentally altering the underlying architecture and without expensive co-training on internet-scale VLM datasets. Through extensive Visual Question Answering (VQA) studies and over 800 real-world robotics experiments, we demonstrate that VLM2VLA preserves the VLM's core capabilities, enabling zero-shot generalization to novel tasks that require open-world semantic reasoning and multilingual instruction following.