CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

📄 arXiv: 2605.21854v1 📥 PDF

作者: Zhi Liu

分类: cs.CV, cs.AI

发布日期: 2026-05-21

备注: Workshop draft, 14 pages, 4 figures. Code, ckpts, data: https://github.com/lz-googlefycy/vla-lab

🔗 代码/项目: GITHUB


💡 一句话要点

CrossVLA:跨范式VLA模型的后训练与推理优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 后训练 直接偏好优化 流匹配 参数高效微调

📋 核心要点

  1. 现有VLA模型后训练主要集中于自回归模型,缺乏对连续动作模型的有效偏好对齐方法。
  2. CrossVLA提出了一种替代流匹配对数概率估计器,使DPO能够应用于连续动作VLA模型。
  3. 实验表明,DoRA在LIBERO基准测试中显著优于LoRA,并在对象任务上实现了零方差的提升。

📝 摘要(中文)

视觉-语言-动作(VLA)模型已迅速收敛于离散token自回归(如OpenVLA)和连续动作流匹配(如pi-0.5)等少数架构模式。然而,通过直接偏好优化(DPO)进行偏好对齐——语言模型中事实上的后训练步骤——几乎只在自回归VLA上进行了研究。我们提出了CrossVLA,一项跨范式VLA后训练的实证研究。包含三个贡献:(i) 一种替代流匹配对数概率估计器,使DPO能够在没有概率流ODE积分的情况下对连续动作骨干网络进行操作;(ii) LoRA和DoRA作为VLA DPO的参数高效层的正面比较,发现DoRA在LIBERO 4-suite上(600次试验,3个种子)比OpenVLA SFT平均提高了+10.4 pp——每个suite分别为+20.0 Object, +11.0 Long-horizon, +8.0 Goal, +2.7 Spatial——Object上的种子方差为零(3个种子中的每个种子均为38/50);(iii) 一种推理时分析,表明去噪循环占据了sample_actions延迟的78.6%,并且类似于VLA-Cache的前缀K/V缓存上限为21%的加速上限——在我们的基准测试中,块级和token级缓存策略都会将成功率降低到0-80%。我们进一步在6000个LIBERO帧上预训练了一个多视图+时间投影头,实现了99.5%的k-NN recall@1,用于相同任务检索(超过随机的36倍),可作为下游初始化。所有代码、ckpt、训练日志和复现脚本均在https://github.com/lz-googlefycy/vla-lab上开放。

🔬 方法详解

问题定义:现有VLA模型主要分为离散token自回归和连续动作流匹配两种范式。DPO作为一种有效的偏好对齐方法,在语言模型中被广泛应用,但在VLA模型中,DPO主要集中于自回归模型,缺乏对连续动作流匹配模型的有效应用。现有方法难以直接将DPO应用于连续动作空间,因为需要计算概率流ODE积分,计算成本高昂。

核心思路:CrossVLA的核心思路是提出一种替代流匹配对数概率估计器,绕过概率流ODE积分,使得DPO可以直接应用于连续动作VLA模型。此外,CrossVLA还研究了LoRA和DoRA两种参数高效微调方法在VLA模型DPO中的效果,并分析了推理时的性能瓶颈。

技术框架:CrossVLA的整体框架包括以下几个主要部分:1) 替代流匹配对数概率估计器:用于估计连续动作的概率,以便DPO能够应用。2) DPO后训练:使用DPO对VLA模型进行偏好对齐。3) 参数高效微调:使用LoRA或DoRA进行参数高效的微调。4) 推理时优化:分析推理时的性能瓶颈,并提出相应的优化策略,如前缀K/V缓存。

关键创新:CrossVLA的关键创新在于提出了替代流匹配对数概率估计器,使得DPO能够应用于连续动作VLA模型,解决了现有方法无法有效对齐连续动作VLA模型偏好的问题。此外,CrossVLA还首次比较了LoRA和DoRA在VLA模型DPO中的效果,并分析了推理时的性能瓶颈。

关键设计:在替代流匹配对数概率估计器方面,论文可能采用了一种近似方法,例如使用神经网络来估计概率密度,避免了复杂的ODE积分。在DPO训练中,可能使用了标准的DPO损失函数,并根据VLA模型的特点进行了调整。在参数高效微调方面,LoRA和DoRA的具体配置(如秩的大小)可能需要根据实验进行调整。在推理时优化方面,前缀K/V缓存的具体实现可能需要考虑VLA模型的结构和任务特点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CrossVLA实验表明,DoRA在LIBERO 4-suite上比OpenVLA SFT平均提高了+10.4 pp,其中Object任务提升最为显著,达到+20.0 pp,并且在Object任务上实现了零种子方差。此外,推理时分析表明,去噪循环占据了sample_actions延迟的78.6%,前缀K/V缓存的加速上限为21%。

🎯 应用场景

CrossVLA的研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过对VLA模型进行偏好对齐,可以使机器人或智能体更好地理解人类指令,并生成更符合人类期望的动作。此外,推理时优化可以提高VLA模型的实时性,使其能够应用于需要快速响应的场景。

📄 摘要(原文)

Vision-Language-Action (VLA) models have rapidly converged on a small set of architectural patterns: discrete-token autoregression (e.g. OpenVLA) and continuous-action flow-matching (e.g. pi-0.5). Yet preference alignment via Direct Preference Optimisation (DPO) -- the de-facto post-training step in language models -- has been studied almost exclusively on autoregressive VLAs. We present CrossVLA, an empirical study of cross-paradigm VLA post-training. Three contributions: (i) a surrogate flow-matching log-probability estimator that lets DPO operate on continuous-action backbones without probability-flow ODE integration; (ii) a head-to-head comparison of LoRA and DoRA as the parameter-efficient layer for VLA DPO, finding DoRA improves over OpenVLA SFT by a mean +10.4 pp across LIBERO 4-suite (600 trials, 3 seeds) -- per-suite +20.0 Object, +11.0 Long-horizon, +8.0 Goal, +2.7 Spatial -- with zero seed variance on Object (38/50 on each of 3 seeds); (iii) an inference-time anatomy showing the denoise loop dominates 78.6% of sample_actions latency and prefix-K/V caching a la VLA-Cache caps at a 21% acceleration ceiling -- both chunk-level and token-level cache strategies degrade success rate to 0-80% in our benchmarks. We further pretrain a multi-view + temporal projection head on 6000 LIBERO frames, achieving 99.5% k-NN recall@1 for same-task retrieval (36x over random), available as a downstream initialisation. All code, ckpts, training logs, and reproduction scripts are open at https://github.com/lz-googlefycy/vla-lab.