Sampling-based Model Predictive Control Using Trust Regions

📄 arXiv: 2605.07801v1 📥 PDF

作者: Markus Walker, Marcel Reith-Braun, Daniel Frisch, Uwe D. Hanebeck

分类: eess.SY

发布日期: 2026-05-08


💡 一句话要点

提出基于信赖域的采样模型预测控制方法,通过KL散度约束实现参数自适应优化。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 采样优化 信赖域方法 KL散度 机器人运动规划 轨迹优化 无梯度优化

📋 核心要点

  1. 现有采样MPC算法高度依赖启发式超参数调整,缺乏理论支撑且调参过程繁琐,限制了其在复杂动态环境下的鲁棒性。
  2. 提出基于信赖域的优化框架,利用KL散度约束建议分布的更新,将超参数调整转化为基于拉格朗日乘子的最优求解问题。
  3. 结合确定性LCD采样技术,显著提升了算法在低样本与低迭代场景下的收敛速度及采样效率,优于传统启发式方法。

📝 摘要(中文)

基于采样的模型预测控制(MPC)算法(如MPPI)通过从建议分布中采样并评估轨迹成本,实现对最优控制问题的无梯度近似求解。然而,这些方法通常依赖启发式规则或手动调参来调整温度、动量等超参数。本文提出了一种基于信赖域的采样MPC框架,通过Kullback-Leibler(KL)散度界限及可选的熵下界来约束建议分布的更新。该方法将启发式超参数调整替换为基于拉格朗日乘子法的最优值计算。此外,通过结合确定性局部累积分布(LCD)采样,进一步提升了采样效率与收敛速度。在两个基准环境中的实验表明,该方法在低样本量和低迭代次数下表现出更快的收敛速度和更高的采样效率。

🔬 方法详解

问题定义:现有采样MPC(如MPPI)在更新建议分布时,往往依赖于经验性的温度参数或动量设置。这种启发式方法难以在不同任务间泛化,且在样本受限时容易导致分布坍缩或收敛缓慢。

核心思路:引入信赖域(Trust Region)理论,将建议分布的更新视为一个受限优化问题。通过限制新旧分布之间的KL散度,确保更新步长在安全范围内,从而实现超参数的自适应优化。

技术框架:算法流程包括:1. 采样阶段,利用LCD采样生成高质量轨迹;2. 评估阶段,计算轨迹成本;3. 更新阶段,通过求解带有KL散度约束和熵约束的拉格朗日对偶问题,动态调整分布参数。

关键创新:将启发式调参转化为严格的数学优化问题,通过KL散度界限自动确定最优的温度和更新步长,消除了对人工调参的依赖,并保证了更新过程的稳定性。

关键设计:核心在于拉格朗日乘子法的应用,通过引入熵下界防止分布过早收敛(即防止过拟合于局部最优),并结合确定性LCD采样技术,在保持分布多样性的同时提升了对搜索空间的覆盖效率。

📊 实验亮点

实验在两个基准环境中验证了该方法的有效性。结果显示,与传统的MPPI及启发式调整方法相比,基于信赖域的MPC在极低样本量(Low-sample)和低迭代次数(Low-iteration)的严苛条件下,表现出更快的收敛速度和更优的轨迹成本,尤其在结合LCD采样后,性能提升显著。

🎯 应用场景

该方法适用于机器人运动规划、自动驾驶车辆轨迹跟踪及复杂动态系统的实时控制。特别是在计算资源受限、需要高实时性响应的嵌入式控制系统中,该方法通过提升采样效率和收敛速度,能够显著增强系统的控制性能与鲁棒性。

📄 摘要(原文)

Sampling-based model predictive control (MPC) algorithms, such as model predictive path integral (MPPI), enable approximate, gradient-free solutions to optimal control problems by drawing samples from a proposal distribution, evaluating their trajectory costs, and updating the proposal parameters accordingly. However, these approaches typically rely on heuristics for adjusting hyperparameters, such as temperature or momentum, or manual tuning. We propose a trust region formulation for sampling-based MPC that constrains updates of the proposal distribution via a principled Kullback--Leibler (KL) divergence bound and, optionally, an entropy lower bound. This replaces heuristic hyperparameter adaptation with values that are optimal w.r.t. the underlying Lagrangian. We further improve sample efficiency and convergence by combining the trust region update with deterministic localized cumulative distribution (LCD)-based sampling. Experiments on two benchmark environments demonstrate that the proposed trust region update achieves faster convergence and better sample efficiency in low-sample and low-iteration regimes, especially when paired with deterministic LCD-based sampling.