DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching

📄 arXiv: 2603.26320v1 📥 PDF

作者: Jiayi Chen, Wenxuan Song, Shuai Chen, Jingbo Wang, Zhijun Li, Haoang Li

分类: cs.RO, cs.CV

发布日期: 2026-03-27

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DFM-VLA:基于离散流匹配的机器人操作迭代动作优化

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作模型 离散流匹配 迭代优化 动作生成

📋 核心要点

  1. 现有VLA模型在机器人操作中存在token生成后无法修正的问题,导致早期错误难以纠正。
  2. DFM-VLA通过离散流匹配建模token级概率速度场,动态更新动作序列,实现迭代优化。
  3. 实验表明,DFM-VLA在CALVIN和LIBERO等数据集上优于现有方法,提升了操作性能和推理效率。

📝 摘要(中文)

视觉-语言-动作(VLA)模型越来越多地被用于机器人操作,这些模型使用离散token化方案对动作进行编码,但现有的解码范式存在根本性的局限。无论是通过自回归VLA顺序解码动作,还是通过离散扩散VLA并行解码动作,一旦生成一个token,它通常就被固定下来,无法在后续迭代中修改,因此早期的token错误无法在后期得到有效纠正。我们提出了DFM-VLA,一种用于迭代优化动作token的离散流匹配VLA。DFM-VLA对token级别的概率速度场进行建模,该速度场动态更新整个动作序列。我们研究了两种构建速度场的方法:辅助速度头公式和动作嵌入引导公式。我们的框架进一步采用了一种两阶段解码策略,包括迭代优化阶段和确定性验证阶段,以实现稳定的收敛。在CALVIN、LIBERO和真实世界操作任务上的大量实验表明,DFM-VLA在操作性能方面始终优于强大的自回归、离散扩散和连续扩散基线,同时保持了较高的推理效率。特别是在CALVIN上,DFM-VLA实现了4.44的平均成功长度,在LIBERO上实现了95.7%的平均成功率,突出了通过离散流匹配进行动作优化在机器人操作中的价值。

🔬 方法详解

问题定义:现有基于离散token的视觉-语言-动作(VLA)模型,在生成动作序列时,一旦某个token被生成,就无法在后续迭代中进行修正。这种“一次性”的生成方式使得模型容易受到早期token错误的影响,导致最终操作失败。因此,需要一种能够迭代优化动作序列的方法,以提高机器人操作的鲁棒性和准确性。

核心思路:DFM-VLA的核心思路是利用离散流匹配(Discrete Flow Matching)的思想,将动作序列的生成过程看作是在一个概率速度场中的流动过程。通过学习一个token级别的概率速度场,模型可以动态地调整和优化整个动作序列,从而纠正早期可能出现的错误。这种迭代优化的方式使得模型能够逐步逼近最优的动作序列。

技术框架:DFM-VLA的整体框架包括以下几个主要模块:1) 视觉-语言编码器:用于提取视觉和语言信息,并将其编码成统一的特征表示。2) 离散流匹配模块:用于学习token级别的概率速度场,并根据该速度场迭代更新动作序列。3) 两阶段解码策略:包括迭代优化阶段和确定性验证阶段。在迭代优化阶段,模型根据离散流匹配模块的输出,逐步优化动作序列。在确定性验证阶段,模型对优化后的动作序列进行验证,以确保其可行性和有效性。

关键创新:DFM-VLA的关键创新在于引入了离散流匹配的思想,并将其应用于机器人操作的动作生成任务中。与传统的自回归或扩散模型不同,DFM-VLA能够对整个动作序列进行迭代优化,从而有效地纠正早期错误。此外,DFM-VLA还提出了两种构建速度场的方法:辅助速度头公式和动作嵌入引导公式,进一步提高了模型的性能。

关键设计:DFM-VLA的关键设计包括:1) 两种速度场构建方法:辅助速度头公式通过引入额外的网络层来预测速度场,而动作嵌入引导公式则利用动作嵌入的信息来指导速度场的学习。2) 两阶段解码策略:迭代优化阶段采用较小的学习率,以保证动作序列的平稳更新;确定性验证阶段则采用较大的学习率,以快速收敛到最优解。3) 损失函数:采用交叉熵损失函数来训练离散流匹配模块,并使用正则化项来约束速度场的平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DFM-VLA在CALVIN数据集上实现了4.44的平均成功长度,显著优于现有方法。在LIBERO数据集上,DFM-VLA达到了95.7%的平均成功率,表明其在复杂操作任务中具有很强的竞争力。此外,实验还表明,DFM-VLA在保持高性能的同时,具有较高的推理效率,使其能够应用于实时机器人操作场景。

🎯 应用场景

DFM-VLA具有广泛的应用前景,可应用于各种机器人操作任务,如物体抓取、装配、导航等。该方法能够提高机器人在复杂环境中的操作性能和鲁棒性,降低对环境的依赖性,并有望推动机器人技术在工业自动化、医疗健康、家庭服务等领域的应用。未来,可以进一步研究如何将DFM-VLA与其他先进技术相结合,例如强化学习、模仿学习等,以实现更智能、更高效的机器人操作。

📄 摘要(原文)

Vision--Language--Action (VLA) models that encode actions using a discrete tokenization scheme are increasingly adopted for robotic manipulation, but existing decoding paradigms remain fundamentally limited. Whether actions are decoded sequentially by autoregressive VLAs or in parallel by discrete diffusion VLAs, once a token is generated, it is typically fixed and cannot be revised in subsequent iterations, so early token errors cannot be effectively corrected later. We propose DFM-VLA, a discrete flow matching VLA for iterative refinement of action tokens. DFM-VLA~models a token-level probability velocity field that dynamically updates the full action sequence across refinement iterations. We investigate two ways to construct the velocity field: an auxiliary velocity-head formulation and an action-embedding-guided formulation. Our framework further adopts a two-stage decoding strategy with an iterative refinement stage followed by deterministic validation for stable convergence. Extensive experiments on CALVIN, LIBERO, and real-world manipulation tasks show that DFM-VLA consistently outperforms strong autoregressive, discrete diffusion, and continuous diffusion baselines in manipulation performance while retaining high inference efficiency. In particular, DFM-VLA achieves an average success length of 4.44 on CALVIN and an average success rate of 95.7\% on LIBERO, highlighting the value of action refinement via discrete flow matching for robotic manipulation. Our project is available \url{https://chris1220313648.github.io/DFM-VLA/}