Residual-MPPI: Online Policy Customization for Continuous Control

📄 arXiv: 2407.00898v5 📥 PDF

作者: Pengcheng Wang, Chenran Li, Catherine Weaver, Kenta Kawamoto, Masayoshi Tomizuka, Chen Tang, Wei Zhan

分类: cs.RO

发布日期: 2024-07-01 (更新: 2025-03-14)


💡 一句话要点

提出Residual-MPPI,用于在线定制连续控制策略,解决强化学习策略在实际应用中的适应性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 在线策略定制 连续控制 强化学习 模型预测控制 残差学习 少量样本学习 零样本学习

📋 核心要点

  1. 强化学习和模仿学习策略在连续控制任务中表现出巨大潜力,但实际应用常需根据未预见的需求调整策略。
  2. Residual-MPPI是一种在线规划算法,通过在已有策略的基础上添加残差控制量,实现在线策略定制,无需额外数据或原始训练信息。
  3. 实验证明Residual-MPPI能有效定制策略,包括冠军级赛车智能体GT Sophy 1.0,在复杂赛车环境中实现性能提升。

📝 摘要(中文)

本文提出了一种通用的在线规划算法Residual-MPPI,用于在执行时定制连续控制策略。该算法能够在少量样本甚至零样本的在线设置中,根据新的性能指标定制已有的策略,仅需访问先验动作分布即可。实验结果表明,Residual-MPPI算法能够有效地完成少量样本/零样本在线策略定制任务,包括在极具挑战性的赛车场景Gran Turismo Sport (GTS)环境中,定制冠军级赛车智能体Gran Turismo Sophy (GT Sophy) 1.0。

🔬 方法详解

问题定义:现有强化学习和模仿学习训练的策略在实际应用中,难以适应新的性能指标或环境变化。微调虽然可以解决,但通常需要额外数据,并且需要访问原始训练指标和参数。因此,如何在无需重新训练或访问原始训练信息的情况下,快速定制策略以适应新需求是一个挑战。

核心思路:Residual-MPPI的核心思想是在已有的先验策略(prior policy)的基础上,通过在线规划添加一个残差控制量(residual control),从而实现对策略的定制。这种方法允许在不改变原有策略的基础上,通过少量调整来满足新的性能指标。

技术框架:Residual-MPPI算法的整体框架包括以下几个主要步骤:1)利用先验策略生成初始动作序列;2)通过MPPI(Model Predictive Path Integral)方法,基于环境模型对动作序列进行优化,生成残差控制量;3)将残差控制量添加到先验策略的输出,得到最终的控制动作;4)执行控制动作并观察环境反馈,用于更新MPPI的参数。

关键创新:Residual-MPPI的关键创新在于将在线规划与先验策略相结合,通过学习残差控制量来实现策略定制。与传统的微调方法相比,Residual-MPPI无需额外数据和原始训练信息,可以在线快速适应新需求。与直接使用MPPI等在线规划算法相比,Residual-MPPI利用了先验策略的知识,可以更快地收敛到最优策略。

关键设计:Residual-MPPI的关键设计包括:1)使用MPPI算法进行在线规划,MPPI是一种基于采样的优化方法,能够有效地处理高维连续控制问题;2)使用高斯噪声对动作序列进行采样,并通过重要性采样来估计最优控制动作;3)使用KL散度等正则化项来约束残差控制量的幅度,避免过度偏离先验策略;4)环境模型可以使用已知的模型,也可以通过在线学习来估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Residual-MPPI算法在多个连续控制任务中表现出色。例如,在MuJoCo环境中,Residual-MPPI能够快速适应新的目标位置,并取得比基线方法更高的奖励。更重要的是,Residual-MPPI成功地应用于冠军级赛车智能体GT Sophy 1.0的定制,在Gran Turismo Sport (GTS)环境中实现了性能提升,证明了其在复杂真实场景中的有效性。

🎯 应用场景

Residual-MPPI具有广泛的应用前景,例如机器人控制、自动驾驶、游戏AI等领域。它可以用于快速定制已有的控制策略,以适应新的任务需求或环境变化。例如,在自动驾驶中,可以使用Residual-MPPI来定制车辆的行驶策略,以适应不同的路况和交通状况。在游戏AI中,可以使用Residual-MPPI来定制游戏角色的行为策略,以提高游戏体验。

📄 摘要(原文)

Policies developed through Reinforcement Learning (RL) and Imitation Learning (IL) have shown great potential in continuous control tasks, but real-world applications often require adapting trained policies to unforeseen requirements. While fine-tuning can address such needs, it typically requires additional data and access to the original training metrics and parameters. In contrast, an online planning algorithm, if capable of meeting the additional requirements, can eliminate the necessity for extensive training phases and customize the policy without knowledge of the original training scheme or task. In this work, we propose a generic online planning algorithm for customizing continuous-control policies at the execution time, which we call Residual-MPPI. It can customize a given prior policy on new performance metrics in few-shot and even zero-shot online settings, given access to the prior action distribution alone. Through our experiments, we demonstrate that the proposed Residual-MPPI algorithm can accomplish the few-shot/zero-shot online policy customization task effectively, including customizing the champion-level racing agent, Gran Turismo Sophy (GT Sophy) 1.0, in the challenging car racing scenario, Gran Turismo Sport (GTS) environment. Code for MuJoCo experiments is included in the supplementary and will be open-sourced upon acceptance. Demo videos and code are available on our website: https://sites.google.com/view/residual-mppi.