XQCfD: Accelerating Fast Actor-Critic Algorithms with Prior Data and Prior Policies

📄 arXiv: 2605.10734v1 📥 PDF

作者: Daniel Palenicek, Florian Vogt, Joe Watson, Ingmar Posner, Danica Kragic, Jan Peters

分类: cs.LG

发布日期: 2026-05-11

备注: 22 pages, 10 figures, 2 tables


💡 一句话要点

提出XQCfD算法,通过预训练策略与增强回放机制提升机器人强化学习的样本效率。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 机器人操作 样本效率 专家演示 Actor-Critic 策略预训练 稀疏奖励

📋 核心要点

  1. 现有强化学习方法在利用先验数据时,往往因无法有效整合预训练策略,导致在复杂探索任务中样本效率低下且容易发生灾难性遗忘。
  2. 提出XQCfD算法,通过引入增强回放缓冲区、预训练策略及平稳网络架构,在保持初始策略优势的同时实现高效的策略改进。
  3. 在Adroit等复杂操作基准上实现SOTA性能,且在低更新数据比(UTD)和无集成网络(Ensemble)的条件下展现出卓越的鲁棒性。

📝 摘要(中文)

在真实世界的强化学习中,在线探索成本高昂。机器人强化学习常利用额外数据来提升样本效率,其中专家演示数据对于解决稀疏奖励下的复杂探索任务至关重要。尽管现有方法利用先验数据进行经验增强和模型预训练,但由于未能有效利用预训练策略,其样本效率仍有提升空间。本文提出了XQCfD算法,该算法扩展了样本高效的XQC Actor-Critic框架,通过增强回放缓冲区、预训练策略以及平稳策略架构,有效避免了传统方法中常见的“灾难性遗忘”问题。实验表明,其平稳网络架构因具备更高的熵预测能力,在分布外策略改进方面表现优异。XQCfD在Adroit、Robomimic和MimicGen等复杂稀疏奖励操作基准测试中达到了SOTA水平,且无需集成网络,并保持了极低的更新数据比(UTD)。

🔬 方法详解

问题定义:论文旨在解决机器人强化学习中在线探索成本高昂的问题。现有方法在利用专家演示数据时,往往因为训练过程中对预训练策略的“快速遗忘”或对先验信息利用不充分,导致在稀疏奖励环境下的样本效率难以进一步提升。

核心思路:论文的核心思想是将预训练策略与在线学习过程紧密结合。通过设计一种平稳(Stationary)的策略网络架构,确保模型在学习过程中能够保留预训练策略的先验知识,同时利用增强回放缓冲区(Augmented Replay Buffers)实现对专家数据的有效利用。

技术框架:XQCfD基于XQC Actor-Critic框架构建。整体流程包括:利用预训练策略初始化Actor网络;在训练过程中,将专家演示数据与在线交互数据混合存入增强回放缓冲区;通过特定的策略架构约束,防止策略在更新过程中偏离预训练的先验分布。

关键创新:最重要的创新在于引入了平稳策略网络架构。该架构通过提高预测的熵(Entropy),使得策略在面对分布外(OOD)状态时表现出更好的泛化能力和稳定性,从而避免了传统网络在微调过程中迅速丧失初始策略性能的问题。

关键设计:算法采用了无需集成网络(Ensemble-free)的设计,降低了计算复杂度。通过精心设计的损失函数和策略更新机制,在极低的更新数据比(UTD)下即可实现策略的快速收敛,特别适用于对计算资源敏感的机器人控制任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

XQCfD在Adroit、Robomimic和MimicGen等主流基准测试中表现卓越,在无需集成网络(Ensemble)且保持极低更新数据比(UTD)的情况下,超越了现有的SOTA方法。实验证明,其平稳网络架构在处理分布外数据时具有更高的熵,有效提升了策略的鲁棒性与样本利用率。

🎯 应用场景

该研究主要应用于机器人操作任务,如复杂物体的抓取、装配及灵巧手操作。由于其在稀疏奖励环境下的高效性,特别适用于真实机器人系统,能够显著降低在线探索带来的硬件磨损与时间成本,为工业自动化和家庭服务机器人提供更高效的训练范式。

📄 摘要(原文)

For reinforcement learning in the real world online exploration is expensive A common practice in robotic reinforcement learning is to incorporate additional data to improve sample efficiency Expert demonstration data is often crucial for solving hard exploration tasks with sparse rewards While prior data is used to augment experience and pretrain models we show that the design of existing algorithms fails to achieve the sample efficiency that is possible in this setting due to a failure to use pretrained policies effectively We propose XQCfD which extends the sample-efficient XQC actor-critic to learn from demonstrations using augmented replay buffers pretrained policies and stationary policy architectures designed to avoid rapidly unlearning the strong initial policy like prior works We show our stationary network architecture enables policy improvement out-of-distribution better than standard network architectures due to its higher entropy predictions XQCfD achieves state of the art performance across a range of complex manipulation tasks with sparse rewards from the popular Adroit Robomimic and MimicGen benchmarks -- notably with a low update-to-data ratio and no ensemble networks