Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

📄 arXiv: 2603.08518v1 📥 PDF

作者: Swetha Ganesh, Vaneet Aggarwal

分类: cs.LG, stat.ML

发布日期: 2026-03-09


💡 一句话要点

提出基于多层蒙特卡洛的自然策略梯度算法,解决凹标量化多目标强化学习中的偏差问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 凹标量化 策略梯度 偏差修正 多层蒙特卡洛

📋 核心要点

  1. 现有策略梯度方法在凹标量化多目标强化学习中存在梯度偏差,导致样本复杂度较高。
  2. 提出一种基于多层蒙特卡洛(MLMC)估计器的自然策略梯度(NPG)算法,以降低梯度偏差并优化样本复杂度。
  3. 理论证明该算法能够达到最优的样本复杂度,并在二阶光滑条件下,标准NPG算法也能达到相同效果。

📝 摘要(中文)

标准强化学习优化单一奖励信号,但许多应用需要优化多个目标的非线性效用函数f(J₁^π,…,J_M^π),其中每个J_m^π表示不同奖励函数的预期折扣回报。凹标量化是一种常用方法,可以捕捉公平性和风险敏感性等重要权衡。然而,非线性标量化给策略梯度方法带来根本挑战:梯度依赖于∂f(J^π),而实践中只有经验回报估计值Ĵ可用。由于f是非线性的,插件估计器是有偏差的(E[∂f(Ĵ)] ≠ ∂f(E[Ĵ])),导致持续的梯度偏差,降低样本复杂度。本文识别并克服了凹标量化多目标强化学习中的这种偏差障碍。我们表明,由于这种偏差,现有的策略梯度方法会遭受固有的$\widetilde{\mathcal{O}}(ε^{-4})$样本复杂度。为了解决这个问题,我们开发了一种配备多层蒙特卡洛(MLMC)估计器的自然策略梯度(NPG)算法,该算法控制标量化梯度的偏差,同时保持较低的采样成本。我们证明,这种方法实现了计算ε-最优策略的最佳$\widetilde{\mathcal{O}}(ε^{-2})$样本复杂度。此外,我们表明,当标量化函数是二阶光滑时,一阶偏差会自动消除,允许vanilla NPG在没有MLMC的情况下实现相同的$\widetilde{\mathcal{O}}(ε^{-2})$速率。我们的结果为策略梯度方法下的凹标量化多目标强化学习提供了第一个最优样本复杂度保证。

🔬 方法详解

问题定义:论文旨在解决凹标量化多目标强化学习中,由于非线性标量化函数导致的梯度偏差问题。现有策略梯度方法直接使用经验回报估计值计算梯度,导致梯度估计存在偏差,进而影响策略学习的效率和收敛性,表现为样本复杂度较高。

核心思路:论文的核心思路是利用多层蒙特卡洛(MLMC)方法来控制标量化梯度的偏差。MLMC通过使用不同精度的样本估计量,以较低的计算成本获得高精度的梯度估计,从而降低梯度偏差。此外,论文还证明了当标量化函数具有二阶光滑性时,一阶偏差可以自动消除,从而可以使用标准的自然策略梯度算法。

技术框架:该算法基于自然策略梯度(NPG)框架,并引入了多层蒙特卡洛(MLMC)估计器。整体流程如下: 1. 使用策略π采样生成轨迹数据。 2. 使用MLMC估计器计算标量化梯度的无偏估计。 3. 使用自然策略梯度更新策略π。 4. 重复步骤1-3,直到策略收敛。

关键创新:论文的关键创新在于将多层蒙特卡洛方法应用于凹标量化多目标强化学习的梯度估计中,有效地降低了梯度偏差,并实现了最优的样本复杂度。此外,论文还发现了标量化函数的二阶光滑性可以消除一阶偏差的特性,为简化算法提供了理论依据。

关键设计:MLMC估计器的关键设计在于如何选择不同精度的样本估计量以及如何分配计算资源。论文中可能涉及对不同层级样本数量的优化,以在计算成本和偏差降低之间取得平衡。具体的损失函数和网络结构取决于具体的应用场景,但核心在于使用MLMC估计器来替代传统的梯度估计方法。

📊 实验亮点

论文证明了配备MLMC估计器的NPG算法能够达到$\widetilde{\mathcal{O}}(ε^{-2})$的最优样本复杂度,显著优于现有方法的$\widetilde{\mathcal{O}}(ε^{-4})$样本复杂度。此外,论文还证明了当标量化函数是二阶光滑时,标准NPG算法也能达到相同的最优样本复杂度。

🎯 应用场景

该研究成果可应用于需要权衡多个目标的强化学习任务中,例如自动驾驶(安全性、舒适性、效率)、机器人控制(精度、能耗、时间)和资源分配(公平性、效益)。通过降低梯度偏差,可以提高学习效率和策略的鲁棒性,从而在实际应用中获得更好的性能。

📄 摘要(原文)

While standard reinforcement learning optimizes a single reward signal, many applications require optimizing a nonlinear utility $f(J_1^π,\dots,J_M^π)$ over multiple objectives, where each $J_m^π$ denotes the expected discounted return of a distinct reward function. A common approach is concave scalarization, which captures important trade-offs such as fairness and risk sensitivity. However, nonlinear scalarization introduces a fundamental challenge for policy gradient methods: the gradient depends on $\partial f(J^π)$, while in practice only empirical return estimates $\hat J$ are available. Because $f$ is nonlinear, the plug-in estimator is biased ($\mathbb{E}[\partial f(\hat J)] \neq \partial f(\mathbb{E}[\hat J])$), leading to persistent gradient bias that degrades sample complexity. In this work we identify and overcome this bias barrier in concave-scalarized multi-objective reinforcement learning. We show that existing policy-gradient methods suffer an intrinsic $\widetilde{\mathcal{O}}(ε^{-4})$ sample complexity due to this bias. To address this issue, we develop a Natural Policy Gradient (NPG) algorithm equipped with a multi-level Monte Carlo (MLMC) estimator that controls the bias of the scalarization gradient while maintaining low sampling cost. We prove that this approach achieves the optimal $\widetilde{\mathcal{O}}(ε^{-2})$ sample complexity for computing an $ε$-optimal policy. Furthermore, we show that when the scalarization function is second-order smooth, the first-order bias cancels automatically, allowing vanilla NPG to achieve the same $\widetilde{\mathcal{O}}(ε^{-2})$ rate without MLMC. Our results provide the first optimal sample complexity guarantees for concave multi-objective reinforcement learning under policy-gradient methods.