DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies

📄 arXiv: 2605.19294v1 📥 PDF

作者: Yixiang Zhu, Yonghao Chen, Rui Meng, Jingyu Guo, Jiaxiang Zou, Zijie Yang, Taowen Wang, Xinyu Chen

分类: cs.RO, cs.AI

发布日期: 2026-05-19


💡 一句话要点

DEFLECT:通过流匹配似然估计反事实调整,实现视觉-语言-动作策略的延迟鲁棒执行

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作 异步推理 延迟鲁棒性 流匹配 反事实学习

📋 核心要点

  1. 异步VLA策略部署中,预测与执行存在时间差,导致性能显著下降,尤其是在高延迟情况下。
  2. DEFLECT将延迟转化为无标签偏好信号,通过流匹配似然比评估反事实动作对,从而提升策略的延迟鲁棒性。
  3. 实验表明,DEFLECT在高延迟环境下显著提升了VLA策略的成功率,并在真实机器人任务中取得了良好效果。

📝 摘要(中文)

视觉-语言-动作(VLA)策略通常采用异步推理部署:机器人执行先前预测的动作块,同时模型计算下一个动作块。这导致预测-执行的不对齐:动作块以推理开始前的观察为条件,但在物理状态中执行时,该状态已经向前漂移了若干控制步长。在Kinetix上,朴素的异步翻转策略的成功率从89%降至1%以下,因为推理周期覆盖了多达7个控制步长。我们提出了DEFLECT,一种完全离线的后训练优化方法,通过将延迟本身转换为无标签的偏好信号,作为现有异步VLA堆栈的近乎直接的升级:反事实的新鲜/陈旧动作对从冻结的参考策略构建,并通过隐式流匹配似然比代理在部署时进行评分,无需人工标签、奖励模型或在线rollout。DEFLECT显著扩展了异步VLA控制的可使用延迟范围,在高延迟状态(5-7个控制步长)下成功率提高了+6.4,转移到最长延迟的真实VLA时提高了+4.6,并且在两个真实机器人任务(双手传送带抓取放置和反应式打地鼠)中都实现了持续改进。

🔬 方法详解

问题定义:论文旨在解决异步视觉-语言-动作(VLA)策略部署中,由于推理延迟导致的预测与执行不对齐问题。现有方法在面对高延迟时,性能会急剧下降,难以保证机器人的稳定控制。

核心思路:DEFLECT的核心思想是将延迟本身转化为一种可利用的信号,通过比较在不同延迟下的动作表现,学习策略对延迟的鲁棒性。具体来说,它构建反事实的“新鲜”和“陈旧”动作对,并利用流匹配似然比来评估这些动作对的优劣。

技术框架:DEFLECT是一个完全离线的后训练优化框架,它不需要人工标签、奖励模型或在线rollout。其主要流程包括:1) 使用冻结的参考策略生成反事实动作对;2) 使用隐式流匹配似然比代理对这些动作对进行评分,评估其在部署时不同延迟下的表现;3) 利用评分结果优化VLA策略,使其对延迟具有更强的鲁棒性。

关键创新:DEFLECT的关键创新在于它将延迟本身转化为一种可学习的偏好信号,从而避免了对人工标签或奖励模型的依赖。此外,它使用流匹配似然比作为一种高效的代理,用于评估反事实动作对的优劣,无需进行复杂的模型训练或在线rollout。

关键设计:DEFLECT的关键设计包括:1) 反事实动作对的构建方式,如何确保“新鲜”和“陈旧”动作对能够反映延迟的影响;2) 流匹配似然比代理的具体实现,如何有效地评估不同延迟下的动作表现;3) 优化VLA策略的损失函数,如何利用流匹配似然比的评分结果来提升策略的延迟鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DEFLECT在高延迟状态(5-7个控制步长)下,VLA策略的成功率提高了+6.4%。在转移到真实VLA时,成功率提高了+4.6%。此外,在两个真实机器人任务(双手传送带抓取放置和反应式打地鼠)中,DEFLECT也实现了持续的性能改进,验证了其在实际应用中的有效性。

🎯 应用场景

DEFLECT技术可广泛应用于需要异步推理的机器人控制任务中,例如自动驾驶、工业自动化、服务机器人等。通过提高VLA策略的延迟鲁棒性,可以降低对硬件性能的要求,并提升机器人在复杂环境中的适应能力。该研究为开发更可靠、更高效的机器人系统提供了新的思路。

📄 摘要(原文)

Vision-Language-Action (VLA) policies are typically deployed with asynchronous inference: the robot executes a previously predicted action chunk while the model computes the next one. This creates a prediction-execution misalignment: the chunk is conditioned on the observation taken before inference began, but executes in a physical state that has already drifted forward by several control steps; naive asynchronous rollover collapses from 89% to under 1% on Kinetix as the inference cycle covers up to seven control steps. We introduce DEFLECT, a fully offline post-training refinement that applies as a near drop-in upgrade to existing async-VLA stacks by converting latency itself into a label-free preference signal: counterfactual fresh/stale action pairs are constructed from a frozen reference policy and scored under the deployment-time conditioning via an implicit flow-matching likelihood-ratio surrogate, with no human labels, reward models, or online rollouts. DEFLECT substantially extends the usable delay envelope of async VLA control, with +6.4 success-rate gain in the high-latency regime (5-7 control steps), +4.6 when transferred to a real-scale VLA at the longest delay, and consistent improvements on two real-robot tasks (a bimanual conveyor pick-and-place and a reactive whack-a-mole).