Safe, Out-of-Distribution-Adaptive MPC with Conformalized Neural Network Ensembles
作者: Jose Leopoldo Contreras, Ola Shorinwa, Mac Schwager
分类: cs.RO, eess.SY
发布日期: 2024-06-04 (更新: 2025-06-04)
💡 一句话要点
提出SODA-MPC算法,利用保形神经网络集成实现安全、适应分布外数据的模型预测控制,应用于自动驾驶。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 模型预测控制 分布外检测 保形预测 神经网络集成 自动驾驶
📋 核心要点
- 现有基于学习的MPC方法在分布外数据上表现不佳,安全性难以保证,而传统基于可达集的MPC方法则过于保守。
- SODA-MPC利用神经网络集成进行预测,并使用保形预测进行OOD检测,在OOD情况下切换到安全的回退控制策略。
- 在自动驾驶仿真中,SODA-MPC在安全性和任务完成度上优于现有方法,并在真实行人数据上验证了OOD检测器的准确性。
📝 摘要(中文)
本文提出了一种安全、适应分布外数据(OOD)的模型预测控制算法SODA-MPC。该算法使用学习模型的集成进行预测,并配备运行时监控器来标记不可靠的OOD预测。当检测到OOD情况时,SODA-MPC会触发基于可达集的安全回退控制策略,从而实现兼具学习模型高性能和可达集控制安全性的控制框架。本文在动态行人环境下的自动驾驶场景中验证了该方法,SODA-MPC使用神经网络集成进行行人预测。通过保形预测校准OOD信号,在用户指定的置信水平下,得到具有概率保证的假阳性率的OOD检测器。在分布内操作期间,MPC控制器基于集成的平均预测轨迹来避免与行人碰撞。当检测到OOD条件时,MPC切换到基于可达集的控制器,假设行人的最大速度,避免与行人的可达集发生碰撞,以保证最坏情况下的行人行为安全。通过在行人穿越场景中进行的大量自动驾驶仿真验证了SODA-MPC。模型集成使用真实行人数据进行训练和校准,表明OOD检测器在理论预测范围内获得了所需的准确率。实验结果表明,与同样使用保形预测但没有OOD适应的两种最先进的MPC方法相比,SODA-MPC在安全性和任务完成度方面均有所提高。此外,本文还使用来自nuScenes数据集的大规模交通数据对大规模多智能体预测器Trajectron++进行了训练和校准,验证了该方法的有效性。
🔬 方法详解
问题定义:论文旨在解决自动驾驶等场景中,基于学习的MPC方法在遇到分布外(Out-of-Distribution, OOD)数据时,预测精度下降,导致安全性无法保证的问题。现有方法要么依赖于对环境的强假设,要么在OOD情况下性能急剧下降,无法在保证安全性的同时实现高性能。
核心思路:论文的核心思路是结合学习模型的高性能和基于可达集控制的安全性。通过使用神经网络集成进行预测,并利用保形预测来检测OOD情况。当检测到OOD时,系统切换到基于可达集的安全回退策略,从而保证在最坏情况下也能避免碰撞。这种方法旨在在分布内数据上实现高性能,并在OOD情况下保证安全性。
技术框架:SODA-MPC的整体框架包含以下几个主要模块:1) 神经网络集成:用于预测行人的未来轨迹。2) 保形预测OOD检测器:用于检测预测结果是否超出训练数据的分布范围。3) 模型预测控制器(MPC):在分布内数据上,基于神经网络集成的平均预测结果进行控制。4) 基于可达集的安全回退控制器:在检测到OOD情况时,切换到该控制器,保证安全性。整个流程是,首先利用神经网络集成预测行人轨迹,然后通过OOD检测器判断预测结果是否可靠。如果可靠,则使用MPC进行控制;否则,切换到安全回退控制器。
关键创新:论文的关键创新在于将保形预测与神经网络集成相结合,实现了一种自适应的OOD检测机制,并将其与MPC框架集成。与现有方法相比,SODA-MPC能够根据数据的分布情况动态调整控制策略,在保证安全性的同时,尽可能地利用学习模型的高性能。此外,使用可达集作为安全保障,确保在最坏情况下也能避免碰撞。
关键设计:论文的关键设计包括:1) 神经网络集成的结构和训练方法,需要保证集成具有良好的预测性能和多样性。2) 保形预测的置信水平的选择,需要在假阳性率和检测灵敏度之间进行权衡。3) 基于可达集的回退控制器的设计,需要考虑行人的最大速度和加速度等因素,以保证安全。4) MPC控制器的目标函数和约束条件的设计,需要在安全性和任务完成度之间进行平衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SODA-MPC在自动驾驶仿真中,与使用保形预测但没有OOD适应的两种最先进的MPC方法相比,在安全性和任务完成度方面均有所提高。具体来说,SODA-MPC能够显著减少碰撞次数,并提高到达目标点的成功率。此外,实验还验证了OOD检测器在真实行人数据上的准确性,表明其假阳性率在理论预测范围内。
🎯 应用场景
SODA-MPC算法可应用于各种需要安全保障的自主系统,例如自动驾驶、机器人导航、无人机等。该算法能够提高自主系统在复杂、动态环境中的适应性和安全性,降低事故风险,具有重要的实际应用价值和商业前景。未来,该算法可以进一步扩展到多智能体系统,并与其他感知和决策模块集成,实现更高级别的自主控制。
📄 摘要(原文)
We present SODA-MPC, a Safe, Out-of-Distribution-Adaptive Model Predictive Control algorithm, which uses an ensemble of learned models for prediction, with a runtime monitor to flag unreliable out-of-distribution (OOD) predictions. When an OOD situation is detected, SODA-MPC triggers a safe fallback control strategy based on reachability, yielding a control framework that achieves the high performance of learning-based models while preserving the safety of reachability-based control. We demonstrate the method in the context of an autonomous vehicle, driving among dynamic pedestrians, where SODA-MPC uses a neural network ensemble for pedestrian prediction. We calibrate the OOD signal using conformal prediction to derive an OOD detector with probabilistic guarantees on the false-positive rate, given a user-specified confidence level. During in-distribution operation, the MPC controller avoids collisions with a pedestrian based on the trajectory predicted by the mean of the ensemble. When OOD conditions are detected, the MPC switches to a reachability-based controller to avoid collisions with the reachable set of the pedestrian assuming a maximum pedestrian speed, to guarantee safety under the worst-case actions of the pedestrian. We verify SODA-MPC in extensive autonomous driving simulations in a pedestrian-crossing scenario. Our model ensemble is trained and calibrated with real pedestrian data, showing that our OOD detector obtains the desired accuracy rate within a theoretically-predicted range. We empirically show improved safety and improved task completion compared with two state-of-the-art MPC methods that also use conformal prediction, but without OOD adaptation. Further, we demonstrate the effectiveness of our method with the large-scale multi-agent predictor Trajectron++, using large-scale traffic data from the nuScenes dataset for training and calibration.