Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance
作者: Wenxuan Song, Jiayi Chen, Shuai Chen, Jingbo Wang, Pengxiang Ding, Han Zhao, Yikai Qin, Xinhu Zheng, Donglin Wang, Yan Wang, Haoang Li
分类: cs.RO, cs.CV
发布日期: 2026-03-26 (更新: 2026-03-27)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Fast-dVLA:加速离散扩散VLA模型至实时性能,降低适应成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人学习 视觉语言动作 预训练模型 监督微调 知识迁移
📋 核心要点
- 现有预训练VLA模型在监督微调中提升性能有限,且适应成本高昂,辅助训练虽能改善,但计算开销大。
- 论文将辅助任务训练目标解耦为增强通用能力和拟合特定任务分布,通过能力向量合并实现性能提升。
- 实验表明,该方法在多种机器人任务中有效,在降低计算开销的同时,性能可与辅助微调基线媲美。
📝 摘要(中文)
本文提出了一种新方法,旨在解决预训练VLA模型在标准监督微调(SFT)期间,无法有效提升性能和降低适应成本的挑战。一些采用辅助训练目标的高级微调方法可以提高性能并减少收敛步骤,但通常会因辅助任务的额外损失而产生显著的计算开销。为了在实现辅助训练增强能力的同时,保持标准SFT的简单性,我们将参数空间内辅助任务训练的两个目标解耦,即增强通用能力和拟合特定任务的动作分布。为此,我们只需要使用两种不同的训练策略,在小规模任务集上训练模型收敛。由此产生的模型参数之间的差异可以解释为辅助任务提供的能力向量。然后,这些向量与预训练参数合并,形成一个能力增强的元模型。此外,当标准SFT辅以轻量级的正交正则化损失时,合并后的模型可以达到与辅助微调基线相当的性能,同时降低计算开销。实验结果表明,该方法在各种机器人任务中非常有效。
🔬 方法详解
问题定义:预训练的VLA模型在进行标准监督微调(SFT)时,难以有效提升性能,并且适应特定任务的成本较高。虽然一些高级微调方法通过引入辅助训练目标来改善性能和减少收敛步骤,但这些方法通常会带来显著的计算开销,因为需要计算来自辅助任务的额外损失。因此,如何在保持SFT简单性的同时,获得辅助训练带来的性能提升,是本文要解决的核心问题。
核心思路:论文的核心思路是将辅助任务训练的两个目标——增强通用能力和拟合特定任务的动作分布——在参数空间中解耦。通过这种解耦,可以分别训练模型以实现这两个目标,然后将它们的能力合并到一个元模型中。这样做的目的是在不增加过多计算开销的情况下,利用辅助任务的优势来提升模型的性能。
技术框架:该方法主要包含以下几个阶段: 1. 能力向量提取:使用两种不同的训练策略,在小规模任务集上训练模型至收敛。两种策略的差异导致模型参数的差异,这些差异被解释为辅助任务提供的能力向量。 2. 元模型构建:将提取的能力向量与预训练模型的参数合并,形成一个能力增强的元模型。合并方式可以是简单的加权平均,也可以是更复杂的参数融合方法。 3. 监督微调:使用标准SFT对元模型进行微调,使其适应特定任务。为了防止微调过程中模型参数偏离能力向量的方向,引入一个轻量级的正交正则化损失。
关键创新:该方法最重要的创新点在于将辅助任务训练目标解耦,并通过能力向量合并的方式,将辅助任务的知识迁移到预训练模型中。这种方法避免了直接在SFT过程中引入复杂的辅助损失函数,从而降低了计算开销。与现有方法的本质区别在于,它不是直接优化一个包含多个损失函数的复杂目标,而是通过参数空间的操作来实现知识迁移。
关键设计: * 能力向量提取策略:论文中具体使用了哪些训练策略来提取能力向量?这些策略的设计原则是什么?(未知) * 能力向量合并方式:如何将能力向量与预训练模型参数合并?合并的权重如何确定?(未知) * 正交正则化损失:正交正则化损失的具体形式是什么?如何保证模型参数在微调过程中保持与能力向量的正交性?(未知)
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多种机器人任务中表现出色,能够在降低计算开销的同时,达到与辅助微调基线相当的性能。具体性能数据和对比基线的信息未在摘要中给出,需参考论文全文。(未知)
🎯 应用场景
该研究成果可广泛应用于机器人控制、自动驾驶等领域,尤其是在需要快速适应新任务的场景下。通过预训练模型和能力向量的结合,可以显著降低模型微调的计算成本,并提高模型在新任务上的性能。该方法还有潜力应用于其他需要知识迁移的机器学习任务中,例如自然语言处理和计算机视觉。
📄 摘要(原文)
This paper proposes a novel approach to address the challenge that pretrained VLA models often fail to effectively improve performance and reduce adaptation costs during standard supervised finetuning (SFT). Some advanced finetuning methods with auxiliary training objectives can improve performance and reduce the number of convergence steps. However, they typically incur significant computational overhead due to the additional losses from auxiliary tasks. To simultaneously achieve the enhanced capabilities of auxiliary training with the simplicity of standard SFT, we decouple the two objectives of auxiliary task training within the parameter space, namely, enhancing general capabilities and fitting task-specific action distributions. To deliver this goal, we only need to train the model to converge on a small-scale task set using two distinct training strategies. The difference between the resulting model parameters can then be interpreted as capability vectors provided by auxiliary tasks. These vectors are then merged with pretrained parameters to form a capability-enhanced meta model. Moreover, when standard SFT is augmented with a lightweight orthogonal regularization loss, the merged model attains performance comparable to auxiliary finetuned baselines with reduced computational overhead. Experimental results demonstrate that this approach is highly effective across diverse robot tasks. Project page: https://chris1220313648.github.io/Fast-dVLA/