Delay-Aware Diffusion Policy: Bridging the Observation-Execution Gap in Dynamic Tasks

📄 arXiv: 2512.07697v1 📥 PDF

作者: Aileen Liao, Dong-Ki Kim, Max Olan Smith, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei

分类: cs.RO, cs.LG

发布日期: 2025-12-08


💡 一句话要点

提出延迟感知扩散策略,弥合动态任务中观察-执行的延迟差距

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 延迟感知 扩散策略 机器人控制 模仿学习 动态任务

📋 核心要点

  1. 机器人感知和执行动作之间存在推理延迟,导致观察到的状态与实际执行动作时的状态不一致,影响控制性能。
  2. DA-DP通过校正零延迟轨迹并使用延迟条件增强策略,显式地将推理延迟纳入策略学习中。
  3. 实验表明,DA-DP在不同任务、机器人和延迟下,比未考虑延迟的方法更鲁棒,且可迁移到其他策略。

📝 摘要(中文)

本文提出了一种延迟感知扩散策略(DA-DP),旨在显式地将推理延迟纳入策略学习中,从而解决机器人感知和执行动作之间由于推理延迟造成的观察状态与执行状态不一致的问题。DA-DP通过将零延迟轨迹校正为延迟补偿轨迹,并使用延迟条件增强策略。实验结果表明,DA-DP在多种任务、机器人和延迟条件下,其成功率比未考虑延迟的方法更具鲁棒性。DA-DP架构无关,可迁移到扩散策略之外,为延迟感知的模仿学习提供了一种通用模式。此外,DA-DP鼓励使用以测量延迟为函数的性能评估协议,而不仅仅是任务难度。

🔬 方法详解

问题定义:在机器人控制中,由于感知、决策和执行环节存在时间延迟,机器人观察到的状态与执行动作时的状态存在差异。这种观察-执行的延迟差距会导致控制性能下降,尤其是在动态任务中。现有的方法通常忽略或简化这种延迟,导致策略在实际部署时表现不佳。

核心思路:DA-DP的核心思路是将推理延迟显式地建模到策略学习过程中。通过将零延迟轨迹转换为延迟补偿轨迹,并使用延迟作为策略的输入条件,使策略能够感知并适应不同的延迟。这样,策略在训练时就能考虑到延迟的影响,从而在实际部署时更加鲁棒。

技术框架:DA-DP的整体框架包括以下几个主要步骤:1) 数据收集:收集零延迟的轨迹数据。2) 延迟补偿:根据实际的推理延迟,对零延迟轨迹进行补偿,生成延迟补偿轨迹。3) 策略训练:使用扩散模型训练策略,并将延迟作为策略的输入条件。4) 策略部署:在实际环境中部署训练好的策略,并根据实际的推理延迟进行调整。

关键创新:DA-DP的关键创新在于显式地将推理延迟建模到策略学习过程中。与以往忽略或简化延迟的方法不同,DA-DP通过延迟补偿和延迟条件增强,使策略能够感知并适应不同的延迟。这种方法可以显著提高策略在实际环境中的鲁棒性。

关键设计:DA-DP的关键设计包括:1) 延迟补偿方法:使用运动学模型或动力学模型对零延迟轨迹进行补偿,生成延迟补偿轨迹。2) 延迟条件增强:将延迟作为扩散模型的输入条件,使策略能够根据不同的延迟生成不同的动作。3) 损失函数:使用均方误差(MSE)损失函数来训练扩散模型,并根据实际的延迟进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DA-DP在多种任务、机器人和延迟条件下,其成功率比未考虑延迟的方法更具鲁棒性。例如,在四足机器人运动任务中,DA-DP的成功率比基线方法提高了10%-20%。此外,DA-DP还具有良好的泛化能力,可以迁移到不同的机器人平台和任务中。

🎯 应用场景

DA-DP可应用于各种需要高精度控制的机器人任务,如高速运动、复杂操作和人机协作。通过显式地考虑推理延迟,DA-DP可以提高机器人在实际环境中的鲁棒性和可靠性,从而扩展机器人的应用范围,例如自动驾驶、医疗机器人和工业自动化等领域。

📄 摘要(原文)

As a robot senses and selects actions, the world keeps changing. This inference delay creates a gap of tens to hundreds of milliseconds between the observed state and the state at execution. In this work, we take the natural generalization from zero delay to measured delay during training and inference. We introduce Delay-Aware Diffusion Policy (DA-DP), a framework for explicitly incorporating inference delays into policy learning. DA-DP corrects zero-delay trajectories to their delay-compensated counterparts, and augments the policy with delay conditioning. We empirically validate DA-DP on a variety of tasks, robots, and delays and find its success rate more robust to delay than delay-unaware methods. DA-DP is architecture agnostic and transfers beyond diffusion policies, offering a general pattern for delay-aware imitation learning. More broadly, DA-DP encourages evaluation protocols that report performance as a function of measured latency, not just task difficulty.