Model Predictive Path Integral PID Control for Learning-Based Path Following
作者: Teruki Kato, Koshi Oishi, Seigo Ito
分类: eess.SY, cs.LG, cs.RO, math.OC
发布日期: 2026-03-31
备注: Submitted to IFAC Journal of Systems and Control
💡 一句话要点
提出MPPI-PID控制,通过优化PID增益实现高效平滑的路径跟踪。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 模型预测控制 路径积分 PID控制 路径跟踪 机器人控制
📋 核心要点
- 传统MPC直接优化控制输入序列,维度高,易产生不连续输入,样本效率低。
- 提出MPPI-PID,将高维输入序列优化转化为低维PID增益优化,提升样本效率。
- 实验表明,MPPI-PID在路径跟踪中性能与传统MPPI相当,但输入增量显著降低。
📝 摘要(中文)
经典比例-积分-微分(PID)控制广泛应用于工业领域,但为了获得更高的性能,通常会采用模型预测控制(MPC)。虽然基于梯度的方法是实时优化的标准方法,但基于采样的方法最近受到了关注。特别是,模型预测路径积分(MPPI)控制能够进行无梯度优化,并适应不可微的模型和目标函数。然而,直接采样控制输入序列可能会产生不连续的输入,并使优化维度与预测范围成比例地增加。本研究提出了MPPI-PID控制,它应用MPPI来优化每个控制步骤的PID增益,从而用低维增益空间优化代替了直接的高维输入序列优化。这种公式提高了样本效率,并通过PID结构产生更平滑的输入。我们还提供了理论见解,包括统一MPPI和MPPI-PID的信息论解释,优化维度对样本效率影响的分析,以及PID结构引起的输入连续性的表征。该方法在基于学习的迷你叉车路径跟踪上进行了评估,使用残差学习动力学模型,该模型将物理模型与神经网络相结合。系统辨识使用真实的驾驶数据进行。数值路径跟踪实验表明,与固定增益PID相比,MPPI-PID提高了跟踪性能,并且在显著减少输入增量的情况下,实现了与传统MPPI相当的性能。此外,即使使用明显更少的样本,该方法也能保持良好的性能,证明了其改进的样本效率。
🔬 方法详解
问题定义:论文旨在解决基于学习的路径跟踪问题,传统MPC方法直接优化控制输入序列,存在优化维度高、易产生不连续输入以及样本效率低等问题。尤其是在非线性、不可微的系统模型下,基于梯度的方法难以应用。
核心思路:论文的核心思路是将MPPI控制应用于PID控制器的增益优化,而不是直接优化控制输入序列。通过优化PID增益,可以降低优化维度,提高样本效率,并利用PID结构的平滑特性,产生更连续的控制输入。
技术框架:MPPI-PID控制框架主要包含以下几个模块:1) 系统辨识模块,利用真实驾驶数据建立车辆的残差学习动力学模型,该模型结合了物理模型和神经网络;2) MPPI优化模块,使用MPPI算法优化PID控制器的增益;3) PID控制模块,使用优化后的PID增益计算控制输入,驱动车辆进行路径跟踪。
关键创新:该方法最重要的创新点在于将MPPI控制与PID控制相结合,实现了低维增益空间优化。与传统MPPI相比,MPPI-PID显著降低了优化维度,提高了样本效率,并利用PID结构的固有平滑性,产生了更连续的控制输入。此外,论文还从信息论的角度统一了MPPI和MPPI-PID,并分析了优化维度对样本效率的影响。
关键设计:关键设计包括:1) 使用残差学习动力学模型,结合物理模型和神经网络,提高模型精度;2) 使用MPPI算法优化PID增益,目标函数为路径跟踪误差;3) PID控制器的具体参数设置,例如比例、积分和微分增益的范围和初始值;4) MPPI算法的采样数量和噪声方差等参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MPPI-PID控制在迷你叉车的路径跟踪任务中,与固定增益PID相比,显著提高了跟踪性能。与传统MPPI相比,MPPI-PID在保持相当性能的同时,显著降低了输入增量,提高了控制输入的平滑性。此外,MPPI-PID在样本效率方面表现出色,即使使用明显更少的样本,也能保持良好的性能。
🎯 应用场景
MPPI-PID控制在机器人路径跟踪、自动驾驶、工业自动化等领域具有广泛的应用前景。该方法能够处理非线性、不可微的系统模型,提高控制系统的鲁棒性和适应性。通过优化PID增益,可以实现更精确、平滑的路径跟踪,提高生产效率和安全性。未来可应用于更复杂的机器人系统和环境。
📄 摘要(原文)
Classical proportional--integral--derivative (PID) control is widely employed in industrial applications; however, achieving higher performance often motivates the adoption of model predictive control (MPC). Although gradient-based methods are the standard for real-time optimization, sampling-based approaches have recently gained attention. In particular, model predictive path integral (MPPI) control enables gradient-free optimization and accommodates non-differentiable models and objective functions. However, directly sampling control input sequences may yield discontinuous inputs and increase the optimization dimensionality in proportion to the prediction horizon. This study proposes MPPI--PID control, which applies MPPI to optimize PID gains at each control step, thereby replacing direct high-dimensional input-sequence optimization with low-dimensional gain-space optimization. This formulation enhances sample efficiency and yields smoother inputs via the PID structure. We also provide theoretical insights, including an information-theoretic interpretation that unifies MPPI and MPPI--PID, an analysis of the effect of optimization dimensionality on sample efficiency, and a characterization of input continuity induced by the PID structure. The proposed method is evaluated on the learning-based path following of a mini forklift using a residual-learning dynamics model that integrates a physical model with a neural network. System identification is performed with real driving data. Numerical path-following experiments demonstrate that MPPI--PID improves tracking performance compared with fixed-gain PID and achieves performance comparable to conventional MPPI while significantly reducing input increments. Furthermore, the proposed method maintains favorable performance even with substantially fewer samples, demonstrating its improved sample efficiency.