TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

📄 arXiv: 2605.11473v1 📥 PDF

作者: Yuanpeng Li, Gefei Lin, Annie Qu, Rui Miao

分类: cs.AI, cs.LG, cs.RO, stat.ML

发布日期: 2026-05-12


💡 一句话要点

TOPPO:通过平衡Critic优化多任务强化学习中的PPO算法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多任务强化学习 近端策略优化 评论家平衡 梯度优化 Meta-World On-policy学习 尾部任务优化

📋 核心要点

  1. 多任务强化学习中,PPO算法存在评论家侧梯度病态条件问题,导致尾部任务学习停滞。
  2. TOPPO通过评论家平衡策略,改进梯度条件,平衡不同任务的学习动态,优化PPO算法。
  3. 实验表明,TOPPO在Meta-World+上优于SAC等基线,参数更少,性能更强,尤其在尾部任务上。

📝 摘要(中文)

软演员-评论家(SAC)及其变体在多任务强化学习(MTRL)中占据主导地位,因为它们具有off-policy的样本效率,而近端策略优化(PPO)等on-policy方法仍未得到充分探索。我们发现MTRL中的PPO存在一个先前被忽视的问题:评论家侧的梯度病态条件,这可能导致尾部任务停滞,而简单任务主导价值函数的更新。为了解决这个问题,我们提出了TOPPO(尾部优化PPO),通过评论家平衡来重新构建PPO——一套改进梯度条件并平衡跨任务学习动态的模块。与依赖模块化架构或大型模型的先前方法不同,TOPPO针对PPO本身内部的优化瓶颈。在Meta-World+基准测试中,经验表明,TOPPO比已发表的SAC系列和ARS系列基线实现了更强的平均和尾部任务性能,同时使用的参数和环境步数大大减少。值得注意的是,TOPPO在训练早期匹配或超过了强大的SAC基线,并在完整预算下保持了卓越的性能。消融实验证实了TOPPO中每个模块的有效性,并提供了对其相互作用的见解。我们的结果表明,通过适当的优化,on-policy方法可以在MTRL中与off-policy方法竞争或超过它们,挑战了对SAC的普遍依赖,并将评论家侧的梯度条件作为中心瓶颈。

🔬 方法详解

问题定义:论文旨在解决多任务强化学习(MTRL)中,使用PPO算法时遇到的评论家(Critic)侧梯度病态条件问题。具体来说,由于不同任务的难度差异,简单任务的梯度会主导价值函数的更新,导致困难的“尾部任务”学习停滞,影响整体性能。现有方法通常依赖于复杂的模块化架构或大型模型,增加了计算成本和模型复杂度。

核心思路:TOPPO的核心思路是通过“评论家平衡”(Critic Balancing)来改善梯度条件,从而平衡不同任务的学习动态。这意味着要调整每个任务对评论家更新的贡献,使得困难任务能够获得更多的关注,避免被简单任务“淹没”。通过优化评论家,可以更准确地评估策略,从而提升整体学习效果。

技术框架:TOPPO是对PPO算法的改进,整体框架仍然是Actor-Critic结构。主要包含以下几个模块:1) 策略网络(Actor):负责生成动作;2) 价值网络(Critic):负责评估当前状态的价值;3) 评论家平衡模块:用于调整不同任务对价值网络更新的贡献。TOPPO在PPO的基础上,重点改进了Critic的更新方式,使其能够更好地适应多任务学习的场景。

关键创新:TOPPO的关键创新在于提出了“评论家平衡”的概念,并设计了一系列模块来实现这一目标。与现有方法不同,TOPPO没有依赖复杂的架构或大型模型,而是直接针对PPO算法的优化瓶颈进行改进。这种方法更加简洁高效,并且能够更好地利用PPO算法的优势。

关键设计:具体的技术细节包括:1) 梯度裁剪:限制梯度的大小,防止梯度爆炸;2) 任务权重调整:根据任务的难度动态调整任务的权重,使得困难任务能够获得更多的关注;3) 损失函数调整:修改损失函数,使得价值网络能够更好地适应不同任务的需求。具体的参数设置和网络结构在论文中有详细描述,需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TOPPO在Meta-World+基准测试中取得了显著的性能提升,超越了SAC和ARS等主流算法。具体而言,TOPPO在平均性能和尾部任务性能上均优于基线算法,并且使用了更少的参数和环境步数。值得注意的是,TOPPO在训练早期就能够匹配或超过强大的SAC基线,并在整个训练过程中保持领先。消融实验验证了TOPPO中各个模块的有效性,证明了评论家平衡策略的优越性。

🎯 应用场景

TOPPO算法在多任务机器人学习、游戏AI、自动驾驶等领域具有广泛的应用前景。例如,可以用于训练机器人同时完成多个操作任务,提高机器人的通用性和适应性。在游戏AI中,可以训练AI同时控制多个角色,提高AI的策略性和智能性。在自动驾驶中,可以训练自动驾驶系统同时处理多个驾驶场景,提高自动驾驶的安全性和可靠性。该研究有助于推动多任务强化学习的发展,并为实际应用提供更有效的解决方案。

📄 摘要(原文)

Soft Actor-Critic (SAC) and its variants dominate Multi-Task Reinforcement Learning (MTRL) due to their off-policy sample efficiency, while on-policy methods such as Proximal Policy Optimization (PPO) remain underexplored. We diagnose that PPO in MTRL suffers from a previously overlooked issue: critic-side gradient ill-conditioning, which may cause tail tasks to stall while easy tasks dominate the value function's updates. To address this, we propose TOPPO (Tail-Optimized PPO), a reformulation of PPO via Critic Balancing -- a set of modules that improve gradient conditioning and balance learning dynamics across tasks. Unlike prior approaches that rely on modular architectures or large models, TOPPO targets the optimization bottleneck within PPO itself. Empirically, TOPPO achieves stronger mean and tail-task performance than published SAC-family and ARS-family baselines while using substantially fewer parameters and environment steps on Meta-World+ benchmark. Notably, TOPPO matches or surpasses strong SAC baselines early in training and maintains superior performance at full budget. Ablations confirm the effectiveness of each module in TOPPO and provide insights into their interactions. Our results demonstrate that, with proper optimization, on-policy methods can rival or exceed off-policy approaches in MTRL, challenging the prevailing reliance on SAC and highlighting critic-side gradient conditioning as the central bottleneck.