CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

作者: Zhi Liu

分类: cs.CV, cs.AI

发布日期: 2026-05-21

备注: Workshop draft, 14 pages, 4 figures. Code, ckpts, data: https://github.com/lz-googlefycy/vla-lab

🔗 代码/项目: GITHUB

💡 一句话要点

CrossVLA：跨范式VLA模型的后训练与推理优化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 后训练 直接偏好优化 流匹配 参数高效微调

📋 核心要点

现有VLA模型后训练主要集中于自回归模型，缺乏对连续动作模型的有效偏好对齐方法。
CrossVLA提出了一种替代流匹配对数概率估计器，使DPO能够应用于连续动作VLA模型。
实验表明，DoRA在LIBERO基准测试中显著优于LoRA，并在对象任务上实现了零方差的提升。

📝 摘要（中文）

视觉-语言-动作(VLA)模型已迅速收敛于离散token自回归(如OpenVLA)和连续动作流匹配(如pi-0.5)等少数架构模式。然而，通过直接偏好优化(DPO)进行偏好对齐——语言模型中事实上的后训练步骤——几乎只在自回归VLA上进行了研究。我们提出了CrossVLA，一项跨范式VLA后训练的实证研究。包含三个贡献：(i) 一种替代流匹配对数概率估计器，使DPO能够在没有概率流ODE积分的情况下对连续动作骨干网络进行操作；(ii) LoRA和DoRA作为VLA DPO的参数高效层的正面比较，发现DoRA在LIBERO 4-suite上(600次试验，3个种子)比OpenVLA SFT平均提高了+10.4 pp——每个suite分别为+20.0 Object, +11.0 Long-horizon, +8.0 Goal, +2.7 Spatial——Object上的种子方差为零(3个种子中的每个种子均为38/50)；(iii) 一种推理时分析，表明去噪循环占据了sample_actions延迟的78.6%，并且类似于VLA-Cache的前缀K/V缓存上限为21%的加速上限——在我们的基准测试中，块级和token级缓存策略都会将成功率降低到0-80%。我们进一步在6000个LIBERO帧上预训练了一个多视图+时间投影头，实现了99.5%的k-NN recall@1，用于相同任务检索(超过随机的36倍)，可作为下游初始化。所有代码、ckpt、训练日志和复现脚本均在https://github.com/lz-googlefycy/vla-lab上开放。

🔬 方法详解

问题定义：现有VLA模型主要分为离散token自回归和连续动作流匹配两种范式。DPO作为一种有效的偏好对齐方法，在语言模型中被广泛应用，但在VLA模型中，DPO主要集中于自回归模型，缺乏对连续动作流匹配模型的有效应用。现有方法难以直接将DPO应用于连续动作空间，因为需要计算概率流ODE积分，计算成本高昂。

核心思路：CrossVLA的核心思路是提出一种替代流匹配对数概率估计器，绕过概率流ODE积分，使得DPO可以直接应用于连续动作VLA模型。此外，CrossVLA还研究了LoRA和DoRA两种参数高效微调方法在VLA模型DPO中的效果，并分析了推理时的性能瓶颈。

技术框架：CrossVLA的整体框架包括以下几个主要部分：1) 替代流匹配对数概率估计器：用于估计连续动作的概率，以便DPO能够应用。2) DPO后训练：使用DPO对VLA模型进行偏好对齐。3) 参数高效微调：使用LoRA或DoRA进行参数高效的微调。4) 推理时优化：分析推理时的性能瓶颈，并提出相应的优化策略，如前缀K/V缓存。

关键创新：CrossVLA的关键创新在于提出了替代流匹配对数概率估计器，使得DPO能够应用于连续动作VLA模型，解决了现有方法无法有效对齐连续动作VLA模型偏好的问题。此外，CrossVLA还首次比较了LoRA和DoRA在VLA模型DPO中的效果，并分析了推理时的性能瓶颈。

关键设计：在替代流匹配对数概率估计器方面，论文可能采用了一种近似方法，例如使用神经网络来估计概率密度，避免了复杂的ODE积分。在DPO训练中，可能使用了标准的DPO损失函数，并根据VLA模型的特点进行了调整。在参数高效微调方面，LoRA和DoRA的具体配置（如秩的大小）可能需要根据实验进行调整。在推理时优化方面，前缀K/V缓存的具体实现可能需要考虑VLA模型的结构和任务特点。

🖼️ 关键图片

📊 实验亮点

CrossVLA实验表明，DoRA在LIBERO 4-suite上比OpenVLA SFT平均提高了+10.4 pp，其中Object任务提升最为显著，达到+20.0 pp，并且在Object任务上实现了零种子方差。此外，推理时分析表明，去噪循环占据了sample_actions延迟的78.6%，前缀K/V缓存的加速上限为21%。

🎯 应用场景

CrossVLA的研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过对VLA模型进行偏好对齐，可以使机器人或智能体更好地理解人类指令，并生成更符合人类期望的动作。此外，推理时优化可以提高VLA模型的实时性，使其能够应用于需要快速响应的场景。

📄 摘要（原文）

Vision-Language-Action (VLA) models have rapidly converged on a small set of architectural patterns: discrete-token autoregression (e.g. OpenVLA) and continuous-action flow-matching (e.g. pi-0.5). Yet preference alignment via Direct Preference Optimisation (DPO) -- the de-facto post-training step in language models -- has been studied almost exclusively on autoregressive VLAs. We present CrossVLA, an empirical study of cross-paradigm VLA post-training. Three contributions: (i) a surrogate flow-matching log-probability estimator that lets DPO operate on continuous-action backbones without probability-flow ODE integration; (ii) a head-to-head comparison of LoRA and DoRA as the parameter-efficient layer for VLA DPO, finding DoRA improves over OpenVLA SFT by a mean +10.4 pp across LIBERO 4-suite (600 trials, 3 seeds) -- per-suite +20.0 Object, +11.0 Long-horizon, +8.0 Goal, +2.7 Spatial -- with zero seed variance on Object (38/50 on each of 3 seeds); (iii) an inference-time anatomy showing the denoise loop dominates 78.6% of sample_actions latency and prefix-K/V caching a la VLA-Cache caps at a 21% acceleration ceiling -- both chunk-level and token-level cache strategies degrade success rate to 0-80% in our benchmarks. We further pretrain a multi-view + temporal projection head on 6000 LIBERO frames, achieving 99.5% k-NN recall@1 for same-task retrieval (36x over random), available as a downstream initialisation. All code, ckpts, training logs, and reproduction scripts are open at https://github.com/lz-googlefycy/vla-lab.

CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理