PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

作者: Xinyu Guo, Bin Xie, Wei Chai, Xianchi Deng, Tiancai Wang, Zhengxing Wu, Xingyu Chen

分类: cs.RO

发布日期: 2026-05-11

备注: 32 pages. Project page: https://priorvla.github.io/

💡 一句话要点

提出PriorVLA框架，通过先验保持机制实现视觉-语言-动作模型的高效适应

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 先验保持 机器人操作 参数高效微调 分布外泛化 多模态学习

📋 核心要点

全参数微调将预训练视为初始化，导致模型在下游任务中丢失了通用的先验知识，限制了泛化能力。
PriorVLA通过冻结先验专家并引入适应专家，利用专家查询机制实现先验知识的有效迁移与任务特化。
实验表明，PriorVLA在RoboTwin 2.0和LIBERO等基准测试中表现卓越，尤其在OOD和小样本场景下大幅超越pi0.5。

📝 摘要（中文）

大规模预训练使视觉-语言-动作（VLA）模型成为通用机器人操作的基础，但针对下游任务的适应仍至关重要。传统的全参数微调将预训练视为初始化，容易导致广泛的先验知识向狭窄的训练分布偏移。为此，我们提出了PriorVLA，这是一种能够保留预训练先验并利用其进行有效适应的新型框架。PriorVLA保留一个冻结的“先验专家”作为只读的先验源，并训练一个“适应专家”进行下游任务特化。通过专家查询（Expert Queries）机制，模型从预训练VLM中捕获场景先验，从先验专家中捕获运动先验，并将两者整合至适应专家中以指导微调。PriorVLA仅需更新全参数微调25%的参数量。在RoboTwin 2.0、LIBERO及真实世界任务中，PriorVLA表现优于全参数微调及现有SOTA VLA基线，特别是在分布外（OOD）和小样本场景下提升显著。

🔬 方法详解

问题定义：现有VLA模型在下游任务微调时，全参数微调往往会破坏预训练阶段习得的广泛先验知识，导致模型在面对分布外（OOD）数据时泛化能力下降，且训练效率较低。

核心思路：引入“先验保持”机制，将预训练模型作为只读的先验知识库，通过解耦的专家架构，在保留通用先验的同时，通过轻量化的适应专家学习特定任务的分布，实现知识的互补与融合。

技术框架：框架包含三个核心组件：冻结的先验专家（Prior Expert）、可训练的适应专家（Adaptation Expert）以及专家查询（Expert Queries）模块。先验专家提供稳定的视觉与运动先验，适应专家负责下游任务的特化，专家查询模块则负责跨专家信息的交互与整合。

关键创新：提出了基于专家查询的先验保持范式，通过冻结预训练权重作为“锚点”，仅更新少量参数（约25%），有效缓解了灾难性遗忘，并显著增强了模型在小样本和OOD场景下的鲁棒性。

关键设计：通过专家查询机制动态提取场景与运动先验，将其作为条件注入到适应专家中。该设计允许模型在保持预训练模型通用性的同时，通过极少的参数更新实现对特定任务分布的快速拟合。

🖼️ 关键图片

📊 实验亮点

PriorVLA在RoboTwin 2.0-Hard上较pi0.5提升11个点，LIBERO任务平均成功率达99.1%。在真实世界任务中，仅需10条演示数据，其ID和OOD成功率分别达到48%和32%，较pi0.5分别提升24和22个百分点，且参数更新量仅为全参数微调的25%。

🎯 应用场景

该研究适用于通用机器人操作领域，如家庭服务机器人、工业自动化装配及复杂环境下的自主导航。其在小样本和OOD场景下的优异表现，极大降低了机器人部署对大规模标注数据的依赖，为实现更具泛化能力的通用机器人提供了技术支撑。

📄 摘要（原文）

Large-scale pretraining has made Vision-Language-Action (VLA) models promising foundations for generalist robot manipulation, yet adapting them to downstream tasks remains necessary. However, the common practice of full fine-tuning treats pretraining as initialization and can shift broad priors toward narrow training-distribution patterns. We propose PriorVLA, a novel framework that preserves pretrained priors and learns to leverage them for effective adaptation. PriorVLA keeps a frozen Prior Expert as a read-only prior source and trains an Adaptation Expert for downstream specialization. Expert Queries capture scene priors from the pretrained VLM and motor priors from the Prior Expert, integrating both into the Adaptation Expert to guide adaptation. Together, PriorVLA updates only 25% of the parameters updated by full fine-tuning. Across RoboTwin 2.0, LIBERO, and real-world tasks, PriorVLA achieves stronger overall performance than full fine-tuning and state-of-the-art VLA baselines, with the largest gains under out-of-distribution (OOD) and few-shot settings. PriorVLA improves over pi0.5 by 11 points on RoboTwin 2.0-Hard and achieves 99.1% average success on LIBERO. Across eight real-world tasks and two embodiments, PriorVLA reaches 81% in-distribution (ID) and 57% OOD success with standard data. With only 10 demonstrations per task, PriorVLA reaches 48% ID and 32% OOD success, surpassing pi0.5 by 24 and 22 points, respectively.

PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理