Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control
作者: Yuxuan Gao, Yedong Shen, Shiqi Zhang, Wenhao Yu, Yifan Duan, Jia pan, Jiajia Wu, Jiajun Deng, Yanyong Zhang
分类: cs.RO
发布日期: 2026-04-07
💡 一句话要点
提出基于漂移策略优化(DBPO)的单步生成策略,用于在线机器人控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人控制 在线强化学习 生成模型 单步策略 漂移策略优化 多模态动作 高频控制
📋 核心要点
- 多步生成策略推理计算成本高,限制了其在高频机器人控制和在线强化学习中的应用。
- 提出基于漂移的策略(DBP)和漂移策略优化(DBPO),将迭代细化融入模型训练,实现单步生成和在线策略优化。
- 实验表明,DBP在保证性能的同时,推理速度提升高达100倍,DBPO实现了稳定在线策略改进,并在真实机器人上实现了105.2Hz的高频控制。
📝 摘要(中文)
多步生成策略在机器人操作中通过建模多模态动作分布实现了强大的性能,但它们需要在推理时进行多步迭代去噪。因此,每个动作都需要数十到数百次的网络函数评估(NFEs),这使得它们对于高频闭环控制和在线强化学习(RL)而言成本过高。为了解决这个限制,我们提出了一个用于原生单步生成策略的两阶段框架,该框架将细化从推理转移到训练。首先,我们引入了基于漂移的策略(DBP),它利用固定点漂移目标将迭代细化内置到模型参数中,从而在设计上产生单步生成骨干网络,同时保留多模态动作建模能力。其次,我们开发了基于漂移的策略优化(DBPO),这是一个在线RL框架,它为预训练的骨干网络配备了兼容的随机接口,从而实现稳定的在线策略更新,而不会牺牲单步部署特性。大量的实验证明了所提出的框架在离线模仿学习、在线微调和真实世界控制场景中的有效性。DBP在实现高达100倍的更快推理速度的同时,匹配或超过了多步扩散策略的性能。在具有挑战性的操作基准测试中,它也始终优于现有的单步基线。此外,DBPO能够在在线环境中实现有效和稳定的策略改进。在真实世界的双臂机器人上的实验证明了105.2 Hz的可靠高频控制。
🔬 方法详解
问题定义:现有基于多步生成模型的机器人控制方法,例如扩散策略,虽然能够建模复杂的多模态动作分布,但在推理阶段需要进行多次迭代去噪,导致计算成本高昂,难以满足高频率控制和在线强化学习的需求。现有单步策略虽然推理速度快,但通常难以建模复杂的多模态动作分布,性能受限。
核心思路:将多步迭代细化的过程融入到模型训练中,使得模型在推理时只需要一步即可生成高质量的动作。通过引入“漂移”的概念,将迭代细化的目标转化为模型参数的优化目标,从而训练出一个原生的单步生成策略。
技术框架:该框架包含两个主要阶段:1) 基于漂移的策略(DBP)预训练阶段:利用固定点漂移目标函数,将迭代细化的过程嵌入到模型参数中,得到一个单步生成骨干网络。2) 基于漂移的策略优化(DBPO)在线强化学习阶段:为预训练的DBP骨干网络配备一个随机接口,使其能够与在线强化学习算法兼容,进行稳定的在线策略更新。
关键创新:核心创新在于将多步迭代细化的过程从推理阶段转移到训练阶段,通过引入漂移目标函数,使得模型能够学习到迭代细化的内在机制,从而在推理时只需要一步即可生成高质量的动作。这与传统的生成模型需要多步迭代去噪有本质区别。
关键设计:DBP使用固定点漂移目标函数,该函数引导模型参数向迭代细化的固定点漂移。DBPO使用兼容的随机接口,例如高斯噪声,使得预训练的DBP骨干网络能够与在线强化学习算法兼容。损失函数的设计需要平衡单步生成动作的质量和在线策略更新的稳定性。网络结构的选择需要能够有效地建模复杂的多模态动作分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DBP在离线模仿学习中能够匹配或超过多步扩散策略的性能,同时推理速度提升高达100倍。在在线强化学习中,DBPO能够实现稳定和有效的策略改进,并在真实世界的双臂机器人上实现了105.2 Hz的高频控制。在多个具有挑战性的操作基准测试中,DBP也始终优于现有的单步基线。
🎯 应用场景
该研究成果可广泛应用于需要高频率控制和在线学习的机器人应用场景,例如高速运动控制、实时避障、自适应操作等。通过降低推理计算成本,使得复杂的生成模型能够部署在资源受限的机器人平台上,从而提升机器人的智能化水平和适应能力。该方法也为其他需要快速推理的生成模型提供了一种新的设计思路。
📄 摘要(原文)
Although multi-step generative policies achieve strong performance in robotic manipulation by modeling multimodal action distributions, they require multi-step iterative denoising at inference time. Each action therefore needs tens to hundreds of network function evaluations (NFEs), making them costly for high-frequency closed-loop control and online reinforcement learning (RL). To address this limitation, we propose a two-stage framework for native one-step generative policies that shifts refinement from inference to training. First, we introduce the Drift-Based Policy (DBP), which leverages fixed-point drifting objectives to internalize iterative refinement into the model parameters, yielding a one-step generative backbone by design while preserving multimodal action modeling capacity. Second, we develop Drift-Based Policy Optimization (DBPO), an online RL framework that equips the pretrained backbone with a compatible stochastic interface, enabling stable on-policy updates without sacrificing the one-step deployment property. Extensive experiments demonstrate the effectiveness of the proposed framework across offline imitation learning, online fine-tuning, and real-world control scenarios. DBP matches or exceeds the performance of multi-step diffusion policies while achieving up to $100\times$ faster inference. It also consistently outperforms existing one-step baselines on challenging manipulation benchmarks. Moreover, DBPO enables effective and stable policy improvement in online settings. Experiments on a real-world dual-arm robot demonstrate reliable high-frequency control at 105.2 Hz.