Actor-Critic Pretraining for Proximal Policy Optimization

📄 arXiv: 2602.23804v1 📥 PDF

作者: Andreas Kernbach, Amr Elsheikh, Nicolas Grupp, René Nagel, Marco F. Huber

分类: cs.LG

发布日期: 2026-02-27


💡 一句话要点

提出Actor-Critic预训练方法,提升PPO在机器人控制中的样本效率

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 Actor-Critic 预训练 机器人控制 近端策略优化 行为克隆 样本效率

📋 核心要点

  1. 机器人强化学习面临样本效率低的挑战,需要大量环境交互,限制了其应用。
  2. 该论文提出Actor-Critic预训练方法,同时利用专家数据初始化Actor和Critic网络。
  3. 实验表明,该方法在机器人任务中显著提升了样本效率,优于无预训练和仅Actor预训练。

📝 摘要(中文)

强化学习Actor-Critic算法能够实现自主学习,但通常需要大量的环境交互,这限制了其在机器人领域的应用。利用专家数据可以减少所需的交互次数。一种常见的方法是Actor预训练,即通过在专家演示上进行行为克隆来初始化Actor网络,然后使用强化学习进行微调。相比之下,Critic网络的初始化受到的关注较少,尽管它在策略优化中起着核心作用。本文提出了一种针对Actor-Critic算法(如近端策略优化PPO)的预训练方法,该方法使用专家演示来初始化两个网络。Actor通过行为克隆进行预训练,而Critic使用从预训练策略的rollout中获得的return进行预训练。该方法在15个模拟机器人操作和运动任务上进行了评估。实验结果表明,与没有预训练相比,Actor-Critic预训练平均提高了86.1%的样本效率,与仅Actor预训练相比提高了30.9%。

🔬 方法详解

问题定义:强化学习在机器人控制中的应用受限于其样本效率。传统的Actor-Critic方法需要大量的环境交互才能学习到有效的策略,这在实际机器人系统中是不可行的。虽然Actor预训练可以缓解这个问题,但Critic网络的初始化往往被忽略,而Critic在策略评估和优化中扮演着至关重要的角色。

核心思路:该论文的核心思路是同时对Actor和Critic网络进行预训练,从而更好地利用专家数据,加速强化学习过程。Actor通过行为克隆学习专家策略,而Critic则通过学习预训练Actor产生的轨迹的return来提升价值估计的准确性。

技术框架:该方法包含两个主要的预训练阶段:1) Actor预训练:使用专家演示数据,通过行为克隆损失函数训练Actor网络,使其模仿专家策略。2) Critic预训练:使用预训练的Actor网络生成轨迹,并计算这些轨迹的return,然后使用这些return作为目标值,训练Critic网络,使其能够准确地估计状态的价值。预训练后的Actor和Critic网络被用于初始化PPO算法,进行后续的强化学习微调。

关键创新:该论文的关键创新在于同时对Actor和Critic网络进行预训练,并提出了一种利用预训练Actor生成的轨迹来预训练Critic的方法。这种方法能够更有效地利用专家数据,提升强化学习的样本效率。与传统的只预训练Actor的方法相比,该方法能够更好地初始化策略优化过程,从而更快地找到最优策略。

关键设计:Actor预训练使用行为克隆损失函数,即最小化Actor输出的动作与专家动作之间的差异。Critic预训练使用均方误差损失函数,即最小化Critic预测的价值与轨迹return之间的差异。论文中使用了PPO算法作为基础的强化学习算法,并对PPO的超参数进行了调整,以适应预训练后的网络。

📊 实验亮点

实验结果表明,在15个模拟机器人操作和运动任务中,Actor-Critic预训练方法相比于没有预训练,平均提高了86.1%的样本效率;相比于仅Actor预训练,平均提高了30.9%的样本效率。这些结果表明,同时预训练Actor和Critic网络能够显著提升强化学习的性能。

🎯 应用场景

该研究成果可应用于各种机器人控制任务,例如机械臂操作、无人机导航和机器人运动控制。通过利用专家数据进行预训练,可以显著减少机器人与环境交互的需求,加速机器人的学习过程,降低部署成本,并提高机器人在复杂环境中的适应性。

📄 摘要(原文)

Reinforcement learning (RL) actor-critic algorithms enable autonomous learning but often require a large number of environment interactions, which limits their applicability in robotics. Leveraging expert data can reduce the number of required environment interactions. A common approach is actor pretraining, where the actor network is initialized via behavioral cloning on expert demonstrations and subsequently fine-tuned with RL. In contrast, the initialization of the critic network has received little attention, despite its central role in policy optimization. This paper proposes a pretraining approach for actor-critic algorithms like Proximal Policy Optimization (PPO) that uses expert demonstrations to initialize both networks. The actor is pretrained via behavioral cloning, while the critic is pretrained using returns obtained from rollouts of the pretrained policy. The approach is evaluated on 15 simulated robotic manipulation and locomotion tasks. Experimental results show that actor-critic pretraining improves sample efficiency by 86.1% on average compared to no pretraining and by 30.9% to actor-only pretraining.