Survival Reinforcement Learning: Toward Scalable Self-Supervised RL

📄 arXiv: 2605.31273v1 📥 PDF

作者: Franki Nguimatsia-Tiofack, Fabian Schramm, Théotime Le Hellard, Justin Carpentier

分类: cs.LG

发布日期: 2026-05-29


💡 一句话要点

提出生存强化学习(SRL),解决对比强化学习在长时程任务中的均匀性容忍困境。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 生存强化学习 对比强化学习 长时程规划 机器人控制 自监督学习

📋 核心要点

  1. 对比强化学习(CRL)在深度扩展方面表现出色,但在长时程目标条件规划中,受限于对比损失固有的均匀性容忍困境。
  2. 生存强化学习(SRL)通过最大化智能体在目标位置的停留时间,扩展了生存价值学习框架,是一种基于在线分类的替代方案。
  3. 在机器人任务上的评估表明,SRL在操作任务上与CRL相当,在长时程运动任务上性能提升2到8倍。

📝 摘要(中文)

本文提出生存强化学习(SRL),一种基于在线分类的替代方案,旨在扩展生存价值学习框架,通过最大化智能体在目标位置的停留时间来实现。SRL规避了对比强化学习(CRL)的结构性约束,并缓解了生存框架中固有的“bang-bang”控制问题,后者通常会在复杂的动力系统中引起不良行为。在各种机器人基准测试中,大规模SRL在操作任务上与最先进的CRL相匹配,并在稳定、长时程运动任务上优于CRL 2倍至8倍。实验结果有力地证明了基于分类的方法可能成为扩展强化学习的关键。

🔬 方法详解

问题定义:现有对比强化学习(CRL)方法在长时程目标条件规划中面临挑战,这是由于对比损失的均匀性容忍困境造成的。这种困境导致智能体难以区分相似但非最优的状态,从而影响学习效率和最终性能。此外,传统的生存框架容易产生“bang-bang”控制,即非0即1的控制策略,这在复杂的动力系统中可能导致不稳定的行为。

核心思路:SRL的核心思路是将强化学习问题转化为一个分类问题,通过最大化智能体在目标状态的“生存”时间来学习策略。具体来说,智能体学习区分哪些状态能够使其更接近目标,哪些状态会使其远离目标。这种方法避免了对比损失的直接使用,从而规避了均匀性容忍困境。同时,通过优化停留时间,SRL鼓励智能体采取更平滑、更稳定的控制策略,避免了“bang-bang”控制。

技术框架:SRL的整体框架包括以下几个主要模块:1) 环境交互模块:智能体与环境交互,收集状态、动作和奖励数据。2) 生存价值函数学习模块:使用收集到的数据,学习一个生存价值函数,该函数预测智能体在当前状态下能够“生存”多久,即在目标状态附近停留的时间。3) 策略优化模块:基于生存价值函数,优化智能体的策略,使其能够选择最大化生存时间的动作。4) 目标状态采样模块:根据任务需求,采样目标状态,用于指导生存价值函数的学习和策略优化。

关键创新:SRL的关键创新在于将强化学习问题转化为生存时间最大化的分类问题。与传统的对比强化学习相比,SRL避免了对比损失的使用,从而规避了均匀性容忍困境。与传统的生存框架相比,SRL通过优化停留时间,鼓励智能体采取更平滑、更稳定的控制策略,避免了“bang-bang”控制。

关键设计:SRL的关键设计包括:1) 生存价值函数的表示:可以使用神经网络来表示生存价值函数,输入为状态,输出为生存时间的预测值。2) 损失函数的设计:可以使用交叉熵损失函数来训练生存价值函数,目标是正确分类哪些状态能够使智能体更接近目标,哪些状态会使其远离目标。3) 策略优化方法:可以使用策略梯度方法或值迭代方法来优化智能体的策略,目标是选择最大化生存价值函数的动作。4) 目标状态的采样策略:可以根据任务需求,采用不同的采样策略,例如均匀采样、重要性采样等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在机器人操作任务上,SRL与最先进的CRL方法性能相当。更重要的是,在稳定、长时程运动任务上,SRL的性能优于CRL 2倍至8倍。这些结果表明,SRL能够有效地解决长时程任务中的均匀性容忍困境,并学习到更稳定、更高效的策略。

🎯 应用场景

SRL具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。在机器人操作中,SRL可以用于学习复杂的抓取、放置等任务。在自动驾驶中,SRL可以用于学习安全、高效的驾驶策略。在游戏AI中,SRL可以用于训练能够长时间存活并完成任务的智能体。SRL的优势在于其能够处理长时程任务,并避免不稳定的控制行为,使其在实际应用中具有更高的可靠性和鲁棒性。

📄 摘要(原文)

While self-supervised Contrastive Reinforcement Learning (CRL) has shown remarkable depth-scaling capabilities, successfully using networks over 64 layers, scaled CRL still struggles with long-horizon goal-conditioned planning due to the uniformity-tolerance dilemma inherent in contrastive losses. We introduce Survival Reinforcement Learning (SRL), an online classification-based alternative that extends the survival value learning framework by maximizing the agent's dwell time at target goals. SRL bypasses the structural constraints of CRL and mitigates the "bang-bang" control solutions inherent to survival frameworks, which often induce undesirable behavior in complex dynamical systems. Evaluated across diverse robotic benchmarks, scaled SRL matches state-of-the-art CRL on manipulation tasks and outperforms it by 2x to 8x on stable, long-horizon locomotion tasks. Our results provide strong additional evidence that classification-based methods may serve as a key primitive in the broader effort to scale reinforcement learning.