DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies

作者: Yixiang Zhu, Yonghao Chen, Rui Meng, Jingyu Guo, Jiaxiang Zou, Zijie Yang, Taowen Wang, Xinyu Chen

分类: cs.RO, cs.AI

发布日期: 2026-05-19

💡 一句话要点

DEFLECT：通过流匹配似然估计反事实调整，实现视觉-语言-动作策略的延迟鲁棒执行

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作 异步推理 延迟鲁棒性 流匹配 反事实学习

📋 核心要点

异步VLA策略部署中，预测与执行存在时间差，导致性能显著下降，尤其是在高延迟情况下。
DEFLECT将延迟转化为无标签偏好信号，通过流匹配似然比评估反事实动作对，从而提升策略的延迟鲁棒性。
实验表明，DEFLECT在高延迟环境下显著提升了VLA策略的成功率，并在真实机器人任务中取得了良好效果。

📝 摘要（中文）

视觉-语言-动作（VLA）策略通常采用异步推理部署：机器人执行先前预测的动作块，同时模型计算下一个动作块。这导致预测-执行的不对齐：动作块以推理开始前的观察为条件，但在物理状态中执行时，该状态已经向前漂移了若干控制步长。在Kinetix上，朴素的异步翻转策略的成功率从89%降至1%以下，因为推理周期覆盖了多达7个控制步长。我们提出了DEFLECT，一种完全离线的后训练优化方法，通过将延迟本身转换为无标签的偏好信号，作为现有异步VLA堆栈的近乎直接的升级：反事实的新鲜/陈旧动作对从冻结的参考策略构建，并通过隐式流匹配似然比代理在部署时进行评分，无需人工标签、奖励模型或在线rollout。DEFLECT显著扩展了异步VLA控制的可使用延迟范围，在高延迟状态（5-7个控制步长）下成功率提高了+6.4，转移到最长延迟的真实VLA时提高了+4.6，并且在两个真实机器人任务（双手传送带抓取放置和反应式打地鼠）中都实现了持续改进。

🔬 方法详解

问题定义：论文旨在解决异步视觉-语言-动作（VLA）策略部署中，由于推理延迟导致的预测与执行不对齐问题。现有方法在面对高延迟时，性能会急剧下降，难以保证机器人的稳定控制。

核心思路：DEFLECT的核心思想是将延迟本身转化为一种可利用的信号，通过比较在不同延迟下的动作表现，学习策略对延迟的鲁棒性。具体来说，它构建反事实的“新鲜”和“陈旧”动作对，并利用流匹配似然比来评估这些动作对的优劣。

技术框架：DEFLECT是一个完全离线的后训练优化框架，它不需要人工标签、奖励模型或在线rollout。其主要流程包括：1) 使用冻结的参考策略生成反事实动作对；2) 使用隐式流匹配似然比代理对这些动作对进行评分，评估其在部署时不同延迟下的表现；3) 利用评分结果优化VLA策略，使其对延迟具有更强的鲁棒性。

关键创新：DEFLECT的关键创新在于它将延迟本身转化为一种可学习的偏好信号，从而避免了对人工标签或奖励模型的依赖。此外，它使用流匹配似然比作为一种高效的代理，用于评估反事实动作对的优劣，无需进行复杂的模型训练或在线rollout。

关键设计：DEFLECT的关键设计包括：1) 反事实动作对的构建方式，如何确保“新鲜”和“陈旧”动作对能够反映延迟的影响；2) 流匹配似然比代理的具体实现，如何有效地评估不同延迟下的动作表现；3) 优化VLA策略的损失函数，如何利用流匹配似然比的评分结果来提升策略的延迟鲁棒性。

🖼️ 关键图片

📊 实验亮点

DEFLECT在高延迟状态（5-7个控制步长）下，VLA策略的成功率提高了+6.4%。在转移到真实VLA时，成功率提高了+4.6%。此外，在两个真实机器人任务（双手传送带抓取放置和反应式打地鼠）中，DEFLECT也实现了持续的性能改进，验证了其在实际应用中的有效性。

🎯 应用场景

DEFLECT技术可广泛应用于需要异步推理的机器人控制任务中，例如自动驾驶、工业自动化、服务机器人等。通过提高VLA策略的延迟鲁棒性，可以降低对硬件性能的要求，并提升机器人在复杂环境中的适应能力。该研究为开发更可靠、更高效的机器人系统提供了新的思路。

📄 摘要（原文）

Vision-Language-Action (VLA) policies are typically deployed with asynchronous inference: the robot executes a previously predicted action chunk while the model computes the next one. This creates a prediction-execution misalignment: the chunk is conditioned on the observation taken before inference began, but executes in a physical state that has already drifted forward by several control steps; naive asynchronous rollover collapses from 89% to under 1% on Kinetix as the inference cycle covers up to seven control steps. We introduce DEFLECT, a fully offline post-training refinement that applies as a near drop-in upgrade to existing async-VLA stacks by converting latency itself into a label-free preference signal: counterfactual fresh/stale action pairs are constructed from a frozen reference policy and scored under the deployment-time conditioning via an implicit flow-matching likelihood-ratio surrogate, with no human labels, reward models, or online rollouts. DEFLECT substantially extends the usable delay envelope of async VLA control, with +6.4 success-rate gain in the high-latency regime (5-7 control steps), +4.6 when transferred to a real-scale VLA at the longest delay, and consistent improvements on two real-robot tasks (a bimanual conveyor pick-and-place and a reactive whack-a-mole).

DEFLECT: Delay-Robust Execution via Flow-matching Likelihood-Estimated Counterfactual Tuning for VLA Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理