VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts
作者: Yuhua Jiang, Junjie Lu, Xinyao Qin, Xiaoyu Chen, Kaixin Wang, Feifei Gao, Li Zhao
分类: cs.RO
发布日期: 2026-05-07
🔗 代码/项目: GITHUB
💡 一句话要点
VLA-GSE:通过广义和专用专家提升VLA中的参数高效微调
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 参数高效微调 机器人控制 谱分解 广义专家 专用专家 零样本学习 多模态理解
📋 核心要点
- 现有VLA模型全量微调易过拟合,参数高效微调方法在机器人控制任务中适应性不足。
- VLA-GSE通过谱分解骨干网络,将奇异分量分配给广义和专用专家,提升模型适应能力。
- VLA-GSE仅更新2.51%参数,在LIBERO-Plus上零样本成功率达81.2%,并保留了预训练VLM能力。
📝 摘要(中文)
视觉-语言-动作(VLA)模型继承了预训练视觉-语言骨干网络中丰富的视觉-语义先验知识,但将其应用于机器人控制仍然具有挑战性。全量微调(FFT)容易在下游机器人数据上过拟合,并灾难性地遗忘预训练的视觉-语言能力。参数高效微调(PEFT)能更好地保留预训练知识,但现有的PEFT方法仍然难以有效地适应机器人控制任务。为了解决这个问题,我们提出了VLA-GSE,一个参数高效的VLA微调框架,它在保留PEFT知识保留优势的同时,提高了控制适应性。具体来说,VLA-GSE(广义和专用专家)通过谱分解冻结的骨干网络进行初始化,将主要的奇异分量分配给广义专家(共享专家),并将不相交的残余分量分配给专用专家(路由专家)。这种分解提高了固定可训练参数预算下的适应能力。在相当的参数预算下,VLA-GSE仅更新完整模型参数的2.51%,并且始终优于强大的FFT和PEFT基线。它在LIBERO-Plus上实现了81.2%的平均零样本成功率,在多模态理解基准测试中,与LoRA相比,保留了相当的预训练VLM能力,并在多个分布偏移下提高了真实世界操作的成功率。代码可在https://github.com/YuhuaJiang2002/VLA-GSE获得。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在适应机器人控制任务时面临挑战。全量微调(FFT)容易过拟合,且会遗忘预训练的知识。参数高效微调(PEFT)虽然能保留预训练知识,但在机器人控制任务中的适应性仍然不足,无法充分利用预训练的视觉-语义先验知识。
核心思路:VLA-GSE的核心思路是通过谱分解预训练的VLA骨干网络,将模型参数分解为广义专家(Generalized Experts)和专用专家(Specialized Experts)。广义专家负责学习通用的视觉-语义知识,而专用专家则负责学习特定于机器人控制任务的知识。通过这种方式,模型可以在保留预训练知识的同时,更好地适应机器人控制任务。
技术框架:VLA-GSE框架主要包含以下几个步骤:1) 使用预训练的视觉-语言模型作为骨干网络。2) 对骨干网络进行谱分解,得到奇异值和奇异向量。3) 将主要的奇异向量分配给广义专家,将剩余的奇异向量分配给专用专家。4) 对广义专家和专用专家进行微调,以适应机器人控制任务。5) 将广义专家和专用专家的输出进行融合,得到最终的控制指令。
关键创新:VLA-GSE的关键创新在于使用谱分解来初始化广义专家和专用专家。这种方法可以有效地将预训练知识和特定任务知识分离,从而提高模型的适应能力。与现有的PEFT方法相比,VLA-GSE能够更好地利用预训练的视觉-语义先验知识,并在机器人控制任务中取得更好的性能。
关键设计:VLA-GSE的关键设计包括:1) 使用奇异值分解(SVD)进行谱分解。2) 根据奇异值的大小来确定广义专家和专用专家的数量。3) 使用交叉熵损失函数来训练广义专家和专用专家。4) 使用加权平均来融合广义专家和专用专家的输出。具体参数设置未知,论文未详细说明。
🖼️ 关键图片
📊 实验亮点
VLA-GSE在LIBERO-Plus数据集上实现了81.2%的平均零样本成功率,显著优于全量微调和LoRA等参数高效微调方法。在多模态理解基准测试中,VLA-GSE保留了与LoRA相当的预训练VLM能力。此外,VLA-GSE在真实世界操作任务中,面对多个分布偏移,也表现出更强的鲁棒性和泛化能力。
🎯 应用场景
VLA-GSE可应用于各种机器人控制任务,例如物体抓取、导航和操作。该方法能够提升机器人在复杂环境中的适应性和泛化能力,降低对大量训练数据的依赖,加速机器人智能化进程。未来可扩展到更多模态融合的机器人任务中,例如结合触觉、听觉等信息。
📄 摘要(原文)
Vision-language-action (VLA) models inherit rich visual-semantic priors from pre-trained vision-language backbones, but adapting them to robotic control remains challenging. Full fine-tuning (FFT) is prone to overfitting on downstream robotic data and catastrophic forgetting of pretrained vision-language capabilities. Parameter-efficient fine-tuning (PEFT) better preserves pre-trained knowledge, yet existing PEFT methods still struggle to adapt effectively to robot control tasks. To address this gap, we propose VLA-GSE, a parameter-efficient VLA fine-tuning framework that improves control adaptation while retaining PEFT's knowledge preservation advantage. Specifically, VLA-GSE (Generalized and Specialized Experts) is initialized by spectrally decomposing the frozen backbone, assigning leading singular components to generalized experts (shared experts) and disjoint residual components to specialized experts (routed experts). This decomposition improves adaptation capacity under a fixed trainable-parameter budget. Under a comparable parameter budget, VLA-GSE updates only 2.51% of the full model parameters and consistently outperforms strong FFT and PEFT baselines. It achieves 81.2% average zero-shot success on LIBERO-Plus, preserves pre-trained VLM capability comparably to LoRA on multimodal understanding benchmarks, and improves real-world manipulation success under multiple distribution shifts. Code is available at: https://github.com/YuhuaJiang2002/VLA-GSE