A Regularized Actor-Critic Algorithm for Bi-Level Reinforcement Learning

📄 arXiv: 2601.16399v1 📥 PDF

作者: Sihan Zeng, Sujay Bhatt, Sumitra Ganesh, Alec Koppel

分类: cs.LG, math.OC

发布日期: 2026-01-23


💡 一句话要点

提出一种正则化Actor-Critic算法,用于解决双层强化学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 双层优化 强化学习 Actor-Critic算法 熵正则化 超梯度估计 奖励函数设计 人机交互 策略优化

📋 核心要点

  1. 现有双层优化和强化学习方法存在对二阶信息的需求、强正则化以及样本利用率低等问题。
  2. 提出一种单循环、一阶Actor-Critic算法,通过惩罚重构和衰减熵正则化来优化双层目标。
  3. 实验表明,该方法在GridWorld和基于人类反馈的强化学习(RLHF)任务中表现良好。

📝 摘要(中文)

本文研究了一个结构化的双层优化问题,其中上层目标是一个光滑函数,下层问题是马尔可夫决策过程(MDP)中的策略优化。上层决策变量参数化了下层MDP的奖励,上层目标依赖于最优的诱导策略。现有的双层优化和强化学习方法通常需要二阶信息,在下层施加强正则化,或者通过嵌套循环程序低效地使用样本。本文提出了一种单循环、一阶Actor-Critic算法,通过基于惩罚的重构来优化双层目标。我们在下层强化学习目标中引入衰减熵正则化,这使得能够对上层超梯度进行渐近无偏估计,而无需精确求解非正则化的强化学习问题。通过在一种特殊类型的Polyak-Lojasiewicz条件下进行的新颖的下层残差分析,我们建立了所提出的算法在有限时间和有限样本下收敛到原始的、非正则化的双层优化问题的平稳点。我们通过在GridWorld目标位置问题和通过人类反馈的强化学习(RLHF)生成快乐推文的实验验证了我们方法的性能。

🔬 方法详解

问题定义:论文旨在解决双层强化学习问题,其中上层优化目标依赖于下层MDP的最优策略。现有方法的主要痛点在于对二阶信息的依赖,这增加了计算复杂度;或者需要对下层进行强正则化,可能影响策略的质量;以及嵌套循环导致样本利用率低,训练效率不高。

核心思路:论文的核心思路是通过penalty-based reformulation将双层优化问题转化为单层优化问题,并引入衰减熵正则化到下层强化学习目标中。这种正则化允许在不完全求解下层问题的情况下,对上层超梯度进行渐近无偏估计,从而避免了对二阶信息的依赖和嵌套循环。

技术框架:整体框架是一个单循环的Actor-Critic算法。上层优化器更新奖励函数的参数,下层Actor-Critic算法根据更新后的奖励函数学习策略。通过衰减熵正则化,下层策略不需要完全收敛,即可为上层提供有效的梯度信息。整个过程在一个循环中进行,提高了样本利用率和训练效率。

关键创新:关键创新在于衰减熵正则化的使用,它允许在下层策略未完全收敛的情况下,对上层超梯度进行无偏估计。这避免了对下层问题的精确求解,从而降低了计算复杂度,并允许使用单循环算法。此外,论文还提出了在特定Polyak-Lojasiewicz条件下,算法的有限时间和有限样本收敛性证明。

关键设计:下层Actor-Critic算法使用熵正则化项,其系数随时间衰减。这种衰减的设计使得算法在早期探索更多状态空间,后期更注重策略的优化。上层优化器使用一阶梯度方法更新奖励函数的参数。损失函数包括上层目标函数和一个惩罚项,用于约束下层策略的偏差。

📊 实验亮点

实验结果表明,该方法在GridWorld目标位置问题和基于人类反馈的强化学习(RLHF)生成快乐推文的任务中表现良好。与现有方法相比,该方法能够更有效地学习到合适的奖励函数,并生成更符合人类期望的策略。具体的性能提升数据在论文中给出,表明了该方法的有效性。

🎯 应用场景

该研究成果可应用于需要进行奖励函数设计的强化学习任务,例如机器人控制、游戏AI和推荐系统。通过优化奖励函数,可以使智能体更好地学习到符合人类期望的行为,从而提高系统的性能和用户体验。特别是在人机交互领域,例如从人类反馈中学习,该方法具有重要的应用价值。

📄 摘要(原文)

We study a structured bi-level optimization problem where the upper-level objective is a smooth function and the lower-level problem is policy optimization in a Markov decision process (MDP). The upper-level decision variable parameterizes the reward of the lower-level MDP, and the upper-level objective depends on the optimal induced policy. Existing methods for bi-level optimization and RL often require second-order information, impose strong regularization at the lower level, or inefficiently use samples through nested-loop procedures. In this work, we propose a single-loop, first-order actor-critic algorithm that optimizes the bi-level objective via a penalty-based reformulation. We introduce into the lower-level RL objective an attenuating entropy regularization, which enables asymptotically unbiased upper-level hyper-gradient estimation without solving the unregularized RL problem exactly. We establish the finite-time and finite-sample convergence of the proposed algorithm to a stationary point of the original, unregularized bi-level optimization problem through a novel lower-level residual analysis under a special type of Polyak-Lojasiewicz condition. We validate the performance of our method through experiments on a GridWorld goal position problem and on happy tweet generation through reinforcement learning from human feedback (RLHF).