Exact Learning of Linear Model Predictive Control Laws using Oblique Decision Trees with Linear Predictions
作者: Jiayang Ren, Qiangqiang Mao, Tianwei Zhao, Yankai Cao
分类: math.OC, eess.SY
发布日期: 2025-12-17
备注: 6 pages, 4 figures, accepted by and presented at the 64th IEEE Conference on Decision and Control (CDC) in December 2025
💡 一句话要点
提出基于线性预测斜决策树的线性模型预测控制精确学习方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 模型预测控制 斜决策树 机器学习 数据驱动控制 可解释性 实时控制 分段仿射系统
📋 核心要点
- 传统MPC在线优化计算量大,显式MPC和神经网络近似存在可扩展性或可解释性问题。
- 利用线性MPC的分段仿射结构,使用带线性预测的斜决策树(ODT-LP)直接学习控制律。
- 实验表明,ODT-LP控制器在匹配MPC性能的同时,显著降低了在线评估时间,并支持形式验证。
📝 摘要(中文)
模型预测控制(MPC)是处理约束多变量系统的有效策略,但由于其在线优化需求,在实时部署中面临计算挑战。显式MPC和神经网络近似虽然缓解了这一负担,但存在可扩展性问题或缺乏可解释性,限制了其在安全关键系统中的应用。本文提出了一种数据驱动框架,该框架使用带线性预测的斜决策树(ODT-LP)直接从采样的状态-动作对中学习线性MPC控制律,从而实现计算效率和可解释性。通过利用线性MPC的分段仿射结构,我们证明了线性MPC控制律可以通过有限深度的ODT-LP模型来复制。我们开发了一种基于梯度的训练算法,使用树路由函数的平滑近似来从网格采样的线性MPC解决方案中学习这种结构,从而实现端到端优化。在有界近似误差下,建立了输入到状态的稳定性,误差被显式分解为学习不准确性和采样误差,从而为模型设计提供信息。数值实验表明,与MPC、显式MPC、神经网络和随机森林相比,ODT-LP控制器匹配了MPC的闭环性能,同时将在线评估时间减少了几个数量级。透明的树结构能够对控制逻辑进行形式验证,从而弥合了安全关键系统的计算效率和可认证可靠性之间的差距。
🔬 方法详解
问题定义:论文旨在解决线性模型预测控制(Linear MPC)在实际应用中计算复杂度高的问题。传统的MPC方法需要在线优化,计算量大,难以满足实时性要求。显式MPC虽然可以离线计算控制律,但存在维度灾难问题,难以扩展到高维系统。神经网络近似方法虽然可以学习控制律,但缺乏可解释性,难以应用于安全关键系统。
核心思路:论文的核心思路是利用线性MPC控制律的分段仿射结构,使用可解释性强的斜决策树(Oblique Decision Tree)来近似表示控制律。通过学习状态空间到动作空间的映射关系,避免了在线优化,同时保证了控制器的可解释性。
技术框架:该方法主要包含以下几个阶段:1) 使用线性MPC求解器生成状态-动作对的训练数据;2) 构建带线性预测的斜决策树(ODT-LP)模型;3) 使用梯度下降算法训练ODT-LP模型,使其逼近线性MPC的控制律;4) 对训练好的ODT-LP控制器进行验证和评估。整体流程是一个数据驱动的学习过程,通过学习线性MPC的解来获得高效且可解释的控制器。
关键创新:该方法最重要的创新点在于使用ODT-LP模型来表示线性MPC的控制律。与传统的决策树不同,斜决策树的决策边界是超平面,可以更好地拟合线性MPC的分段仿射结构。此外,每个叶节点都包含一个线性预测器,可以更精确地预测控制动作。这种方法结合了决策树的可解释性和线性模型的精确性,实现了计算效率和可解释性的平衡。
关键设计:在训练过程中,论文使用了树路由函数的平滑近似,使得可以使用梯度下降算法进行端到端优化。损失函数的设计目标是最小化ODT-LP模型的预测误差。此外,论文还分析了近似误差对系统稳定性的影响,并给出了误差分解,包括学习不准确性和采样误差,从而指导模型设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ODT-LP控制器能够匹配线性MPC的闭环性能,同时将在线评估时间减少了几个数量级。与MPC、显式MPC、神经网络和随机森林等方法相比,ODT-LP控制器在计算效率和可解释性方面都具有优势。例如,ODT-LP的在线评估时间比MPC快几个数量级,并且其树结构可以进行形式验证,从而保证控制逻辑的正确性。
🎯 应用场景
该研究成果可应用于各种需要实时控制和安全保障的领域,例如自动驾驶、机器人控制、航空航天等。在这些领域,控制器需要快速响应并保证系统的稳定性,同时需要具备可解释性,以便进行故障诊断和安全验证。该方法为这些应用提供了一种新的解决方案,可以在保证性能的同时提高系统的可靠性和安全性。
📄 摘要(原文)
Model Predictive Control (MPC) is a powerful strategy for constrained multivariable systems but faces computational challenges in real-time deployment due to its online optimization requirements. While explicit MPC and neural network approximations mitigate this burden, they suffer from scalability issues or lack interpretability, limiting their applicability in safety-critical systems. This work introduces a data-driven framework that directly learns the Linear MPC control law from sampled state-action pairs using Oblique Decision Trees with Linear Predictions (ODT-LP), achieving both computational efficiency and interpretability. By leveraging the piecewise affine structure of Linear MPC, we prove that the Linear MPC control law can be replicated by finite-depth ODT-LP models. We develop a gradient-based training algorithm using smooth approximations of tree routing functions to learn this structure from grid-sampled Linear MPC solutions, enabling end-to-end optimization. Input-to-state stability is established under bounded approximation errors, with explicit error decomposition into learning inaccuracies and sampling errors to inform model design. Numerical experiments demonstrate that ODT-LP controllers match MPC's closed-loop performance while reducing online evaluation time by orders of magnitude compared to MPC, explicit MPC, neural network, and random forest counterparts. The transparent tree structure enables formal verification of control logic, bridging the gap between computational efficiency and certifiable reliability for safety-critical systems.