A KL-regularization framework for learning to plan with adaptive priors
作者: Álvaro Serra-Gomez, Daniel Jarne Ornia, Dhruva Tirumala, Thomas Moerland
分类: cs.LG, cs.AI, cs.RO
发布日期: 2025-10-05
备注: Preprint
💡 一句话要点
提出PO-MPC框架,通过KL正则化学习自适应先验的规划策略,提升MBRL性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型预测控制 强化学习 KL正则化 策略优化 自适应先验
📋 核心要点
- 模型预测控制中,探索不足是高维连续控制任务的挑战,现有方法采样策略与规划器对齐不足。
- 提出PO-MPC框架,通过KL正则化将规划器的动作分布作为策略优化的先验,对齐采样策略和规划器。
- 实验表明,PO-MPC框架下的新变体显著提升了性能,推进了基于MPPI的强化学习技术水平。
📝 摘要(中文)
在基于模型的强化学习(MBRL)中,有效的探索仍然是一个核心挑战,尤其是在样本效率至关重要的高维连续控制任务中。最近的一项重要工作利用学习到的策略作为模型预测路径积分(MPPI)规划的提议分布。最初的方法独立于规划器分布更新采样策略,通常使用确定性策略梯度和熵正则化来最大化学习到的价值函数。然而,由于训练期间遇到的状态取决于MPPI规划器,因此将采样策略与规划器对齐可以提高价值估计的准确性和长期性能。为此,最近的方法通过最小化与规划器分布的KL散度或将规划器引导的正则化引入策略更新来更新采样策略。在这项工作中,我们通过引入策略优化-模型预测控制(PO-MPC),统一了这些基于MPPI的强化学习方法,PO-MPC是一系列KL正则化的MBRL方法,它将规划器的动作分布作为策略优化中的先验。通过将学习到的策略与规划器的行为对齐,PO-MPC允许策略更新中更大的灵活性,以权衡回报最大化和KL散度最小化。我们阐明了先前的方法如何作为该系列的特例出现,并探索了以前未研究的变体。我们的实验表明,这些扩展的配置产生了显著的性能改进,从而推进了基于MPPI的RL的最新技术。
🔬 方法详解
问题定义:论文旨在解决基于模型的强化学习(MBRL)中,尤其是在高维连续控制任务中,样本效率低下的问题。现有方法,如直接使用学习到的策略作为MPPI规划的提议分布,存在采样策略与规划器分布对齐不足的问题,导致价值估计不准确,长期性能受限。
核心思路:论文的核心思路是将规划器的动作分布作为策略优化的先验,通过KL正则化来约束策略更新,使学习到的策略与规划器的行为更加一致。这样既能利用学习到的策略进行高效探索,又能保证策略与规划器的一致性,从而提高价值估计的准确性和长期性能。
技术框架:PO-MPC框架的核心在于将MPPI规划器的动作分布作为策略学习的先验知识。整体流程如下:首先,使用MPPI规划器生成动作分布;然后,将该分布作为先验,通过KL正则化约束策略更新;最后,使用更新后的策略进行探索和学习。该框架允许在回报最大化和KL散度最小化之间进行权衡,从而实现更灵活的策略更新。
关键创新:PO-MPC的关键创新在于提出了一个统一的KL正则化框架,将多种基于MPPI的强化学习方法整合在一起。它将规划器的动作分布显式地作为策略学习的先验,并通过KL散度来衡量策略与先验之间的差异。这种方法允许更灵活地控制策略更新,从而在探索和利用之间取得更好的平衡。
关键设计:PO-MPC的关键设计包括:1) 使用KL散度作为正则化项,衡量学习到的策略与规划器动作分布之间的差异;2) 引入一个可调节的系数,用于控制KL散度正则化的强度,从而平衡回报最大化和策略与规划器一致性;3) 允许探索不同的KL散度计算方式,例如,可以使用正向KL散度或反向KL散度,以适应不同的任务需求。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PO-MPC框架下的新变体在多个连续控制任务中取得了显著的性能提升,超越了现有的基于MPPI的强化学习方法。具体来说,在某些任务中,PO-MPC的性能提升幅度超过了10%,证明了其在探索和利用之间取得更好平衡的能力。
🎯 应用场景
PO-MPC框架可应用于机器人控制、自动驾驶、游戏AI等领域,尤其是在需要高样本效率和长期规划能力的复杂环境中。通过学习与规划器对齐的策略,可以提高智能体在未知环境中的适应性和决策能力,降低训练成本,并提升整体性能。该研究对MBRL的实际应用具有重要价值。
📄 摘要(原文)
Effective exploration remains a central challenge in model-based reinforcement learning (MBRL), particularly in high-dimensional continuous control tasks where sample efficiency is crucial. A prominent line of recent work leverages learned policies as proposal distributions for Model-Predictive Path Integral (MPPI) planning. Initial approaches update the sampling policy independently of the planner distribution, typically maximizing a learned value function with deterministic policy gradient and entropy regularization. However, because the states encountered during training depend on the MPPI planner, aligning the sampling policy with the planner improves the accuracy of value estimation and long-term performance. To this end, recent methods update the sampling policy by minimizing KL divergence to the planner distribution or by introducing planner-guided regularization into the policy update. In this work, we unify these MPPI-based reinforcement learning methods under a single framework by introducing Policy Optimization-Model Predictive Control (PO-MPC), a family of KL-regularized MBRL methods that integrate the planner's action distribution as a prior in policy optimization. By aligning the learned policy with the planner's behavior, PO-MPC allows more flexibility in the policy updates to trade off Return maximization and KL divergence minimization. We clarify how prior approaches emerge as special cases of this family, and we explore previously unstudied variations. Our experiments show that these extended configurations yield significant performance improvements, advancing the state of the art in MPPI-based RL.