Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation
作者: Asim Osman, Sasha Abramowitz, Mark Bergh, Ulrich Armel Mbou Sob, Ruan John de Kock, Omayma Mahjoub, Oussama Hidaoui, Noah De Nicola, Arnol Manuel Fokam, Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Siddarth Singh, Refiloe Shabe, Juan Claude Formanek, Simon Verster Du Toit, Arnu Pretorius
分类: cs.LG, cs.AI
发布日期: 2026-05-13
💡 一句话要点
提出对比近端策略优化(CPPO),实现免奖励函数的On-Policy自监督强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对比强化学习 On-Policy 自监督学习 近端策略优化 无奖励函数
📋 核心要点
- 现有对比强化学习(CRL)算法依赖Off-Policy优化,且主要应用于连续动作空间,缺乏对离散环境的有效支持。
- CPPO通过对比Q值直接导出策略优势,并使用标准PPO目标进行优化,无需人工设计的奖励函数和回放缓冲区。
- 实验结果表明,CPPO在多个连续和离散环境中显著优于现有CRL基线,并在多个任务中达到或超过了使用密集奖励的PPO性能。
📝 摘要(中文)
对比强化学习(CRL)通过状态-动作和目标表征上的对比目标学习目标条件Q值,从而消除了对人工设计的奖励函数的需求。尽管CRL在实现可行的RL自监督学习方面取得了令人瞩目的成功,但所有现有的CRL算法都依赖于Off-Policy优化,并且主要局限于连续动作空间,对离散环境的研究很少。这使得CRL与广泛使用且有效的现代On-Policy训练流程脱节,而这些流程已被应用于连续和离散环境中的单智能体和多智能体RL。为了建立第一个连接,我们引入了对比近端策略优化(CPPO)。CPPO是一种On-Policy对比RL算法,它直接从对比Q值中导出策略优势,并通过标准PPO目标对其进行优化,而无需奖励函数或回放缓冲区。我们在连续和离散、单智能体和合作多智能体任务中评估了CPPO。虽然On-Policy方法的存在本身就很有用,但我们观察到,CPPO不仅在18个任务中的14个任务中显著优于之前的CRL基线,而且在18个测试任务中的12个任务中,匹配或超过了使用人工设计的密集奖励的PPO的性能。
🔬 方法详解
问题定义:论文旨在解决对比强化学习(CRL)算法主要依赖Off-Policy优化,且在离散动作空间表现不佳的问题。现有方法需要人工设计的奖励函数,限制了其在复杂环境中的应用。此外,与广泛使用的On-Policy算法的脱节也阻碍了CRL的进一步发展。
核心思路:论文的核心思路是设计一种On-Policy的对比强化学习算法,即CPPO。CPPO通过对比学习的方式学习Q值,并利用学习到的Q值来指导策略的优化,从而避免了人工设计奖励函数的需求。同时,CPPO采用PPO的优化框架,使其能够直接应用于On-Policy的训练流程。
技术框架:CPPO的整体框架如下:1) 使用对比学习目标函数训练Q函数,该函数能够评估状态-动作对的质量。2) 基于学习到的Q函数,计算策略的优势函数。3) 使用PPO算法,根据优势函数更新策略。该框架避免了使用回放缓冲区,并且可以直接在On-Policy数据上进行训练。
关键创新:CPPO的关键创新在于将对比学习与On-Policy的PPO算法相结合。这使得CPPO能够在没有人工设计的奖励函数的情况下,直接从环境交互中学习策略。此外,CPPO的设计使其能够同时应用于连续和离散动作空间,扩展了CRL的应用范围。
关键设计:CPPO的关键设计包括:1) 对比损失函数的设计,用于训练Q函数。该损失函数鼓励Q函数区分正样本(实际采取的动作)和负样本(其他可能的动作)。2) 优势函数的计算方式,CPPO直接从对比Q值中导出策略优势,避免了对奖励函数的依赖。3) PPO的优化目标,CPPO使用标准的PPO优化目标来更新策略,保证了策略的稳定性和收敛性。
🖼️ 关键图片
📊 实验亮点
CPPO在18个测试任务中的14个任务中显著优于之前的CRL基线。更重要的是,在18个测试任务中的12个任务中,CPPO的性能匹配或超过了使用人工设计的密集奖励的PPO的性能。这些结果表明,CPPO是一种有效的On-Policy对比强化学习算法,具有很强的竞争力。
🎯 应用场景
CPPO具有广泛的应用前景,例如机器人控制、游戏AI、自动驾驶等领域。它能够应用于奖励函数难以设计或获取的环境中,例如复杂的多智能体协作任务。CPPO的自监督学习能力可以降低对人工标注数据的依赖,从而加速强化学习的应用。
📄 摘要(原文)
Contrastive reinforcement learning (CRL) learns goal-conditioned Q-values through a contrastive objective over state-action and goal representations, removing the need for hand-crafted reward functions. Despite impressive success in achieving viable self-supervised learning in RL, all existing CRL algorithms rely on off-policy optimisation and are mostly constrained to continuous action spaces, with little research invested in discrete environments. This leaves CRL disconnected from widely used and effective, modern on-policy training pipelines adopted across both single-agent and multi-agent RL in continuous and discrete environments. To establish a first connection, we introduce Contrastive Proximal Policy Optimisation (CPPO). CPPO is an on-policy contrastive RL algorithm that derives policy advantages directly from contrastive Q-values and optimises them via the standard PPO objective, without requiring a reward function or a replay buffer. We evaluate CPPO across continuous and discrete, single-agent and cooperative multi-agent tasks. Whilst the existence of an on-policy approach is inherently useful, we observe that \textbf{CPPO not only significantly outperforms the previous CRL baselines in 14 out of 18 tasks, but also matches or exceeds PPO's performance, which uses hand-crafted dense rewards, in 12 out of the 18 tasks tested.}