SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics

作者: Yifan Liu, You Wang, Guang Li

分类: cs.RO, cs.LG

发布日期: 2024-05-15

期刊: IEEE Robotics and Automation Letters 2024

DOI: 10.1109/LRA.2024.3456508

💡 一句话要点

提出SOMTP：一种基于自监督学习的MPC安全轨迹规划优化器

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 模型预测控制 控制障碍函数 安全轨迹规划 自监督学习 优化器 机器人

📋 核心要点

传统优化器求解带CBF约束的MPC问题计算成本高，基于学习的方法难以保证非凸约束的满足。
SOMTP算法利用问题转录和可微SLPG校正，结合自监督学习，引导优化器网络收敛到可行解。
实验结果表明，SOMTP在可行性上优于其他学习方法，且求解速度远快于传统优化器，同时保持了相近的优化性能。

📝 摘要（中文）

本文提出了一种名为SOMTP的自监督学习优化器，用于解决基于模型预测控制（MPC）的安全轨迹规划问题。在机器人领域，将控制障碍函数（CBF）约束融入MPC能显著提高避障效率。然而，传统优化器在求解此类非凸约束优化问题（COPs）时耗费大量资源且速度缓慢，而基于学习的方法难以满足非凸约束。SOMTP首先采用问题转录来满足大部分约束，然后提出可微的SLPG校正，使解更接近安全集，并将其转化为后续训练过程中的引导策略。受增广拉格朗日方法（ALM）的启发，本文提出了一种结合引导策略约束的训练算法，使优化器网络能够收敛到可行解。实验表明，该算法比其他基于学习的方法具有更好的可行性，并且能以与传统优化器相似的优化程度提供更快的解决方案。

🔬 方法详解

问题定义：论文旨在解决机器人中基于MPC的安全轨迹规划问题，特别是当MPC结合控制障碍函数（CBF）以确保避障安全时，传统优化器计算效率低下的问题。现有方法，如传统优化器，在求解此类非凸约束优化问题时，计算量大，难以满足实时性要求。而直接使用学习方法，又难以保证满足非凸约束，导致规划出的轨迹不安全。

核心思路：论文的核心思路是利用自监督学习训练一个优化器网络，使其能够快速找到满足CBF约束的MPC问题的可行解。通过问题转录预先满足大部分约束，然后利用可微的SLPG校正将解推向安全区域。关键在于将SLPG校正过程转化为自监督学习的引导策略，并结合增广拉格朗日方法（ALM）进行训练，从而保证解的可行性。

技术框架：SOMTP算法的整体框架包含以下几个主要阶段：1) 问题转录：将原始的非凸约束优化问题转化为更容易处理的形式，预先满足大部分约束。2) SLPG校正：利用可微的SLPG（Sequential Linear Programming with Gaussian Process）方法对初始解进行校正，使其更接近安全集。3) 引导策略训练：将SLPG校正过程转化为自监督学习的引导策略，用于训练优化器网络。4) ALM训练：结合增广拉格朗日方法，将约束违反项加入损失函数，并利用引导策略约束优化器网络的输出，使其收敛到可行解。

关键创新：SOMTP的关键创新在于：1) 提出了一种将SLPG校正转化为自监督学习引导策略的方法，有效地利用了校正过程的信息。2) 结合增广拉格朗日方法和引导策略，设计了一种新的训练算法，保证了优化器网络输出解的可行性。3) 将问题转录和学习方法相结合，在保证可行性的前提下，显著提高了求解速度。

关键设计：在SLPG校正中，使用高斯过程（GP）来建模约束函数的不确定性，并利用GP的预测方差来调整校正步长。在训练过程中，损失函数包含两部分：一部分是原始MPC问题的目标函数，另一部分是约束违反项的惩罚项（基于ALM）。引导策略通过最小化优化器网络输出与SLPG校正输出之间的差异来实现。网络结构的选择取决于具体问题，可以使用MLP、CNN等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SOMTP算法在可行性方面优于其他基于学习的方法，能够保证规划出的轨迹满足安全约束。同时，SOMTP算法的求解速度比传统优化器快几个数量级，能够在实时性要求较高的场景中应用。在优化性能方面，SOMTP算法与传统优化器相当，能够在保证安全性的前提下，找到接近最优的轨迹。

🎯 应用场景

SOMTP算法可应用于各种需要实时安全轨迹规划的机器人应用中，例如自动驾驶、无人机导航、机器人操作等。该算法能够显著提高机器人避障的效率和安全性，使其能够在复杂环境中安全可靠地完成任务。未来，该算法可以进一步扩展到更复杂的场景，例如多机器人协同、动态环境等。

📄 摘要（原文）

Model Predictive Control (MPC)-based trajectory planning has been widely used in robotics, and incorporating Control Barrier Function (CBF) constraints into MPC can greatly improve its obstacle avoidance efficiency. Unfortunately, traditional optimizers are resource-consuming and slow to solve such non-convex constrained optimization problems (COPs) while learning-based methods struggle to satisfy the non-convex constraints. In this paper, we propose SOMTP algorithm, a self-supervised learning-based optimizer for CBF-MPC trajectory planning. Specifically, first, SOMTP employs problem transcription to satisfy most of the constraints. Then the differentiable SLPG correction is proposed to move the solution closer to the safe set and is then converted as the guide policy in the following training process. After that, inspired by the Augmented Lagrangian Method (ALM), our training algorithm integrated with guide policy constraints is proposed to enable the optimizer network to converge to a feasible solution. Finally, experiments show that the proposed algorithm has better feasibility than other learning-based methods and can provide solutions much faster than traditional optimizers with similar optimality.

SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理