Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning
作者: Dongjie Yu, Kun Lei, Zhennan Jiang, Jia Pan, Huazhe Xu
分类: cs.RO
发布日期: 2026-05-19
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出ZPRL,通过瓶颈潜在空间强化学习引导预训练机器人策略,提升真实世界操作性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 强化学习 策略微调 变分信息瓶颈 潜在空间学习
📋 核心要点
- 现有机器人策略微调方法依赖动作空间残差校正,易产生噪声探索,影响样本效率和性能。
- ZPRL通过变分信息瓶颈提取任务相关潜在空间,并在该空间进行残差学习,引导策略调整。
- 实验表明,ZPRL在模拟和真实机器人任务中,相较于动作残差方法,显著提升了样本效率和最终性能。
📝 摘要(中文)
预训练模仿策略已成为机器人操作的强大基础,但它们通常需要在线改进以克服执行错误、有限的数据集覆盖和部署不匹配。因此,一个核心问题是强化学习(RL)应该如何在离线预训练后调整策略。现有的轻量级方法通常直接在动作空间中应用残差校正,但这通常导致噪声和结构不良的探索。在这项工作中,我们提出了Z-Perturbation Reinforcement Learning(ZPRL),这是一种通过紧凑的瓶颈潜在空间而不是通过策略权重或输出动作来引导预训练策略的方法。在离线训练期间,我们使用一个即插即用的变分信息瓶颈(VIB)模块来增强策略,以从观察嵌入中提取任务相关的潜在接口。在在线微调期间,基础策略被冻结,RL仅学习此潜在空间的残差扰动,其解码表示调节冻结的动作生成器。我们在流匹配策略上实例化ZPRL,并在八个模拟任务和四个真实世界任务上对其进行评估。在不同的操作设置中,ZPRL在样本效率和最终性能方面都优于强大的后训练基线。在现实世界中,ZPRL在四个任务上的平均成功率比模仿基础策略提高了33.7%,同时产生了比动作残差对应物更平滑的探索行为。这些结果表明,紧凑的、任务对齐的瓶颈潜在空间为在线RL适应提供了一个有效的接口。
🔬 方法详解
问题定义:现有机器人操作策略通常依赖预训练的模仿学习策略,但这些策略在真实世界部署时会遇到泛化性问题,例如执行错误和环境不匹配。直接在动作空间添加残差校正的强化学习方法虽然简单,但容易导致探索过程中的噪声,影响学习效率和最终性能。因此,需要一种更有效的方式来引导预训练策略,使其能够适应新的环境和任务。
核心思路:ZPRL的核心思路是通过一个紧凑的、任务相关的潜在空间来引导预训练策略。该潜在空间通过变分信息瓶颈(VIB)从观察嵌入中提取,从而过滤掉不相关的环境信息,保留与任务最相关的信息。通过在该潜在空间中学习残差扰动,可以更有效地调整策略,避免在动作空间中直接进行探索带来的噪声。
技术框架:ZPRL包含两个主要阶段:离线预训练和在线微调。在离线预训练阶段,使用模仿学习训练一个基础策略,并添加一个VIB模块来提取潜在空间。VIB模块将观察嵌入映射到一个低维的潜在向量,该向量包含了任务相关的关键信息。在在线微调阶段,基础策略被冻结,只训练一个残差策略,该策略学习在潜在空间中添加扰动。扰动后的潜在向量被解码回动作空间,用于控制机器人。
关键创新:ZPRL的关键创新在于使用瓶颈潜在空间作为策略调整的接口。与直接在动作空间或策略权重上进行调整相比,这种方法可以更有效地探索策略空间,并避免噪声探索。VIB模块的使用确保了潜在空间只包含与任务相关的信息,从而提高了学习效率。
关键设计:ZPRL使用流匹配策略作为基础策略,并使用变分自编码器(VAE)来实现VIB模块。VAE的损失函数包括重构损失和KL散度损失,用于确保潜在空间的平滑性和信息性。残差策略使用多层感知机(MLP)实现,并使用TRPO算法进行训练。在真实世界实验中,对潜在空间的维度进行了调整,以平衡表达能力和学习效率。
🖼️ 关键图片
📊 实验亮点
ZPRL在八个模拟任务和四个真实世界机器人操作任务上进行了评估。在真实世界任务中,ZPRL的平均成功率比模仿基础策略提高了33.7%,并且产生了比动作残差方法更平滑的探索行为。实验结果表明,ZPRL在样本效率和最终性能方面都优于现有的策略微调方法。
🎯 应用场景
ZPRL适用于各种机器人操作任务,例如物体抓取、放置、装配等。该方法可以帮助机器人更好地适应新的环境和任务,提高其自主性和鲁棒性。此外,ZPRL还可以应用于其他需要策略微调的领域,例如自动驾驶和游戏AI。该研究有望推动机器人技术在工业自动化、医疗保健等领域的广泛应用。
📄 摘要(原文)
Pretrained imitation policies have become a strong foundation for robot manipulation, but they often require online improvement to overcome execution errors, limited dataset coverage, and deployment mismatch. A central question is therefore how reinforcement learning (RL) should adapt policies after offline pretraining. Existing lightweight methods commonly apply residual corrections directly in action space, but this often leads to noisy and poorly structured exploration. In this work, we propose Z-Perturbation Reinforcement Learning (ZPRL), an approach that steers pretrained policies through a compact bottleneck latent rather than through policy weights or output actions. During offline training, we augment the policy with a plug-and-play variational information bottleneck (VIB) module to extract a task-relevant latent interface from observation embeddings. During online finetuning, the base policy is frozen and RL learns only a residual perturbation on this latent, whose decoded representation conditions the frozen action generator. We instantiate ZPRL on flow-matching policies and evaluate it on eight simulation tasks and four real-world tasks. Across diverse manipulation settings, ZPRL improves both sample efficiency and final performance over strong post-training baselines. In the real world, ZPRL improves the average success rate on four tasks by 33.7% over imitation base policies while producing smoother exploration behaviors than an action residual counterpart. These results suggest that a compact, task-aligned bottleneck latent provides an effective interface for online RL adaptation. More videos can be found at https://manutdmoon.github.io/ZPRL/.