Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance
作者: Wenxuan Song, Jiayi Chen, Shuai Chen, Jingbo Wang, Pengxiang Ding, Han Zhao, Yikai Qin, Xinhu Zheng, Donglin Wang, Yan Wang, Haoang Li
分类: cs.RO, cs.CV
发布日期: 2026-03-26
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Fast-dVLA:加速离散扩散VLA模型至实时性能,提升机器人任务泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: VLA模型 机器人控制 迁移学习 辅助训练 参数解耦 能力向量 监督微调
📋 核心要点
- 现有VLA模型微调存在性能提升有限、适应成本高昂的问题,且辅助训练目标方法计算开销大。
- 论文核心思想是将辅助任务训练目标解耦为增强通用能力和拟合特定任务分布,通过能力向量合并实现。
- 实验结果表明,该方法在多种机器人任务中有效,能够在降低计算开销的同时,达到与辅助微调基线相当的性能。
📝 摘要(中文)
本文提出了一种新方法,旨在解决预训练VLA模型在标准监督微调(SFT)期间,难以有效提升性能和降低适应成本的挑战。一些采用辅助训练目标的高级微调方法可以提高性能并减少收敛步骤,但通常会因辅助任务的额外损失而产生显著的计算开销。为了在实现辅助训练增强能力的同时,保持标准SFT的简洁性,我们将辅助任务训练的两个目标(即增强通用能力和拟合特定任务的动作分布)在参数空间中解耦。为此,我们只需要使用两种不同的训练策略,在小规模任务集上训练模型收敛。由此产生的模型参数之间的差异可以解释为辅助任务提供的能力向量。然后,这些向量与预训练参数合并,形成一个能力增强的元模型。此外,当标准SFT辅以轻量级的正交正则化损失时,合并后的模型可以达到与辅助微调基线相当的性能,同时降低计算开销。实验结果表明,该方法在各种机器人任务中非常有效。
🔬 方法详解
问题定义:预训练的VLA模型在应用于特定机器人任务时,通过标准监督微调(SFT)往往难以取得理想的效果,性能提升有限且适应成本较高。虽然一些高级微调方法通过引入辅助训练目标来改善性能和加速收敛,但这些方法通常会带来显著的计算开销,因为需要计算额外的辅助任务损失。因此,如何在保持SFT简洁性的同时,有效利用辅助训练的优势,提升VLA模型的性能和泛化能力,是本文要解决的关键问题。
核心思路:论文的核心思路是将辅助任务训练的目标解耦为两个部分:增强模型的通用能力和拟合特定任务的动作分布。通过解耦,可以将辅助训练的复杂性分解为两个相对独立的步骤,从而降低计算开销。具体来说,论文通过训练两个具有不同训练策略的模型,并将它们参数的差异视为“能力向量”,然后将这些能力向量与预训练模型的参数合并,从而创建一个能力增强的元模型。
技术框架:该方法主要包含以下几个阶段:1. 能力向量提取:使用两种不同的训练策略,在小规模任务集上训练VLA模型至收敛,得到两组模型参数。这两组参数的差异被认为是辅助任务提供的能力向量。2. 元模型构建:将提取的能力向量与预训练模型的参数合并,形成一个能力增强的元模型。3. 标准SFT增强:在标准SFT过程中,引入一个轻量级的正交正则化损失,以进一步提升模型的性能。
关键创新:该方法最重要的创新点在于将辅助任务训练目标在参数空间中解耦,并通过能力向量合并的方式,将辅助训练的优势融入到预训练模型中。这种解耦的方式避免了直接计算辅助任务损失带来的计算开销,同时能够有效地提升模型的性能和泛化能力。与现有方法相比,该方法在保持SFT简洁性的同时,实现了与辅助微调基线相当的性能。
关键设计:论文的关键设计包括:1. 两种不同的训练策略:具体策略未知,但目的是为了提取不同的能力向量。2. 能力向量合并方式:具体合并方式未知,但需要保证合并后的模型能够继承预训练模型的知识,并融合辅助任务提供的能力。3. 轻量级的正交正则化损失:在标准SFT过程中引入,用于进一步提升模型的性能,具体形式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多种机器人任务中表现出色,能够在降低计算开销的同时,达到与辅助微调基线相当的性能。具体的性能数据和提升幅度在论文中未明确给出,但强调了该方法在不同任务上的有效性。该方法通过能力向量的合并,有效地提升了模型的泛化能力和适应性。
🎯 应用场景
该研究成果可广泛应用于机器人控制领域,尤其是在需要快速适应新任务或环境的场景下。例如,在工业自动化、家庭服务机器人、自动驾驶等领域,可以利用该方法快速微调预训练的VLA模型,使其能够高效地完成特定任务。此外,该方法还可以应用于其他需要迁移学习的领域,例如自然语言处理、图像识别等。
📄 摘要(原文)
This paper proposes a novel approach to address the challenge that pretrained VLA models often fail to effectively improve performance and reduce adaptation costs during standard supervised finetuning (SFT). Some advanced finetuning methods with auxiliary training objectives can improve performance and reduce the number of convergence steps. However, they typically incur significant computational overhead due to the additional losses from auxiliary tasks. To simultaneously achieve the enhanced capabilities of auxiliary training with the simplicity of standard SFT, we decouple the two objectives of auxiliary task training within the parameter space, namely, enhancing general capabilities and fitting task-specific action distributions. To deliver this goal, we only need to train the model to converge on a small-scale task set using two distinct training strategies. The difference between the resulting model parameters can then be interpreted as capability vectors provided by auxiliary tasks. These vectors are then merged with pretrained parameters to form a capability-enhanced meta model. Moreover, when standard SFT is augmented with a lightweight orthogonal regularization loss, the merged model attains performance comparable to auxiliary finetuned baselines with reduced computational overhead. Experimental results demonstrate that this approach is highly effective across diverse robot tasks. Project page: https://chris1220313648.github.io/Fast-dVLA/