Chance-Constrained Neural MPC under Uncontrollable Agents via Sequential Convex Programming

📄 arXiv: 2504.03293v2 📥 PDF

作者: Shuqi Wang, Mingyang Feng, Yu Chen, Yue Gao, Xiang Yin

分类: eess.SY

发布日期: 2025-04-04 (更新: 2025-11-04)


💡 一句话要点

提出基于序列凸规划的概率约束神经MPC,解决不可控Agent下的安全控制问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 神经模型预测控制 不可控Agent 序列凸规划 分离共形预测 自动驾驶

📋 核心要点

  1. 现有方法难以在存在行为随机且依赖状态的不可控Agent时,保证系统的安全控制。
  2. 提出一种神经MPC框架,利用离线数据学习Agent轨迹预测器,并结合分离共形预测提供概率误差界。
  3. 实验表明,该方法在自动驾驶场景中,相较于基线方法,显著提升了安全性和效率,成功率超过99.5%。

📝 摘要(中文)

本文研究了在不可控Agent存在下的安全保障问题,这些Agent的行为是随机的,并且依赖于自身和系统的状态。我们提出了一种神经模型预测控制(MPC)框架,该框架使用从离线数据中学习的预测器来预测不可控Agent的轨迹。为了提供预测误差的概率保证,我们采用分离共形预测来构建特定区域、随时间变化的不确定性边界,并将其集成到MPC公式中。为了解决由此产生的非凸、不连续优化问题,我们提出了一种双环迭代序列凸规划算法。内循环求解具有固定误差边界的凸化子问题,而外循环基于更新的控制序列细化这些边界。我们建立了在温和正则性条件下的收敛性保证,并证明了算法的最优性。我们用涉及交互行人的自动驾驶场景来说明我们的方法。实验结果表明,与基线方法相比,我们的方法实现了卓越的安全性和效率,在多行人场景中,成功率超过99.5%,同时保持了更高的平均速度。

🔬 方法详解

问题定义:论文旨在解决在存在不可控Agent的情况下,如何保证系统安全性的问题。这些Agent的行为具有随机性,并且依赖于自身和系统的状态,这使得传统的模型预测控制(MPC)方法难以直接应用。现有的MPC方法通常假设环境是完全可控或可预测的,无法处理这种具有随机性和交互性的场景。因此,如何在不完全了解Agent行为的情况下,设计一种能够保证系统安全性的控制策略是一个关键挑战。

核心思路:论文的核心思路是利用神经模型预测控制(Neural MPC)框架,结合预测模型和不确定性量化方法,来应对不可控Agent带来的挑战。具体来说,首先使用神经网络学习Agent的轨迹预测模型,然后利用分离共形预测(Split Conformal Prediction)方法来估计预测误差的不确定性边界。最后,将这些不确定性边界集成到MPC的优化问题中,从而在控制过程中考虑到Agent行为的随机性,并保证系统的安全性。

技术框架:整体框架包含以下几个主要模块:1) 离线数据收集:收集Agent和系统的交互数据。2) 轨迹预测模型学习:使用神经网络学习Agent的轨迹预测模型。3) 不确定性量化:利用分离共形预测方法,估计预测误差的不确定性边界,得到随时间和区域变化的误差界限。4) 神经MPC:将预测模型和不确定性边界集成到MPC的优化问题中,设计控制策略。5) 序列凸规划:采用双环迭代序列凸规划算法求解非凸优化问题。内循环求解凸化子问题,外循环更新误差边界。

关键创新:论文的关键创新在于以下几个方面:1) 提出了一种基于神经MPC的框架,能够处理具有随机性和交互性的不可控Agent。2) 采用分离共形预测方法,对预测误差进行不确定性量化,并提供概率保证。3) 设计了一种双环迭代序列凸规划算法,能够有效地求解非凸优化问题,并保证算法的收敛性和最优性。与现有方法相比,该方法能够更好地处理Agent行为的随机性,并提供更可靠的安全保证。

关键设计:在轨迹预测模型方面,可以使用各种神经网络结构,如循环神经网络(RNN)或Transformer。损失函数可以选择均方误差(MSE)或交叉熵损失。在分离共形预测方面,需要选择合适的置信水平,并根据实际情况调整共形预测的参数。在序列凸规划算法中,需要选择合适的凸化方法,并设置合适的迭代次数和收敛阈值。此外,MPC的控制周期和预测步长也是需要仔细调整的关键参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在自动驾驶场景中取得了显著的性能提升。与基线方法相比,该方法在多行人场景中实现了超过99.5%的成功率,同时保持了更高的平均速度。这表明该方法能够有效地处理Agent行为的随机性,并提供可靠的安全保证。此外,实验还验证了算法的收敛性和最优性。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、人机协作等领域。特别是在需要与不可预测的Agent进行交互的场景下,例如自动驾驶车辆与行人、服务机器人与用户等,该方法能够有效地提高系统的安全性和可靠性。此外,该方法还可以应用于智能交通系统、智能制造等领域,提高系统的效率和安全性。

📄 摘要(原文)

This work investigates the challenge of ensuring safety guarantees under uncontrollable agents whose behaviors are stochastic and depend on both their own and the system's states. We present a neural model predictive control (MPC) framework that predicts the trajectory of the uncontrollable agent using a predictor learned from offline data. To provide probabilistic guarantees on prediction errors, we employ split conformal prediction to construct region-specific, time-dependent uncertainty bounds, which are integrated into the MPC formulation. To solve the resulting non-convex, discontinuous optimization problem, we propose a two-loop iterative sequential convex programming algorithm. The inner loop solves convexified subproblems with fixed error bounds, while the outer loop refines these bounds based on updated control sequences. We establish convergence guarantees under mild regularity conditions and demonstrate the optimality of the algorithm. We illustrate our method with an autonomous driving scenario involving interactive pedestrians. Experimental results demonstrate that our approach achieves superior safety and efficiency compared to baseline methods, with success rates exceeding 99.5\% while maintaining higher average speeds in multi-pedestrian scenarios.