Safety-Guaranteed Imitation Learning from Nonlinear Model Predictive Control for Spacecraft Close Proximity Operations
作者: Alexander Meinert, Niklas Baldauf, Peter Stadler, Alen Turnwald
分类: cs.RO, eess.SY
发布日期: 2026-03-19
备注: Accepted at European Control Conference (ECC 2026)
💡 一句话要点
提出一种基于模仿学习和控制屏障函数的航天器近距离操作安全控制框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 航天器控制 近距离操作 模仿学习 控制屏障函数 模型预测控制 安全控制 在轨服务
📋 核心要点
- 现有航天器近距离操作控制方法计算复杂度高,难以满足实时性和安全性需求,尤其是在存在非线性动力学和扰动的情况下。
- 该论文提出一种基于模仿学习的框架,利用NMPC生成安全轨迹,并训练神经策略模仿NMPC,同时结合CBF和CLF保证安全性和稳定性。
- 实验结果表明,该方法在保证安全性的前提下,任务性能与NMPC专家相当,并显著降低了在线计算量,可在商用处理器上实时运行。
📝 摘要(中文)
本文提出了一种安全保障且运行时高效的模仿学习框架,用于航天器近距离控制。该框架利用控制屏障函数(CBF)作为安全证书,控制李雅普诺夫函数(CLF)作为稳定性的统一设计原则,贯穿数据生成、训练和部署。首先,非线性模型预测控制(NMPC)专家执行CBF约束,以提供安全参考轨迹。其次,我们使用新颖的CBF-CLF信息损失和类似DAgger的课程加权rollout训练神经策略,从而提高数据效率并减少未来安全滤波器的干预。第三,在部署时,轻量级单步CBF-CLF二次规划最小化地调整学习到的控制输入,以满足硬安全约束,同时鼓励稳定性。我们在符合ESA标准的近距离操作中验证了该方法,包括使用Basilisk高保真模拟器(具有非线性动力学和扰动)在球形禁区周围的环绕飞行以及在锥形接近走廊内的最终接近。数值实验表明,在滤波器下,决策点稳定收敛并严格遵守安全性,任务性能与NMPC专家相当,同时显着降低了在线计算。运行时分析表明,在商用现成处理器上具有实时可行性,支持用于安全关键型在轨服务的板载部署。
🔬 方法详解
问题定义:航天器近距离操作需要精确控制,同时保证安全性,避免碰撞等危险情况。传统的NMPC方法虽然可以保证安全性,但计算量大,难以满足实时性要求,尤其是在复杂的非线性动力学和扰动环境下。因此,需要一种既能保证安全性,又能降低计算复杂度的控制方法。
核心思路:该论文的核心思路是利用模仿学习,让一个轻量级的神经策略学习NMPC专家的控制策略,从而降低在线计算量。同时,为了保证安全性,在训练和部署阶段都引入了CBF和CLF,确保控制策略满足安全约束和稳定性要求。
技术框架:该框架主要包含三个阶段:数据生成阶段、训练阶段和部署阶段。在数据生成阶段,使用NMPC专家生成安全参考轨迹,并作为训练数据。在训练阶段,训练一个神经策略模仿NMPC专家的控制策略,并使用CBF-CLF信息损失函数和DAgger-like rollouts进行训练,提高数据效率和安全性。在部署阶段,使用一个轻量级的CBF-CLF二次规划器对神经策略的输出进行微调,确保满足安全约束和稳定性要求。
关键创新:该论文的关键创新在于将CBF和CLF作为统一的设计原则,贯穿数据生成、训练和部署三个阶段。通过CBF-CLF信息损失函数和DAgger-like rollouts,提高了模仿学习的效率和安全性。此外,使用轻量级的CBF-CLF二次规划器进行微调,保证了部署阶段的实时性和安全性。
关键设计:CBF-CLF信息损失函数的设计是关键。该损失函数同时考虑了控制策略的性能、安全性和稳定性。DAgger-like rollouts通过课程加权,逐步增加训练难度,提高模型的泛化能力。轻量级的CBF-CLF二次规划器通过最小化调整量,保证了实时性和安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在ESA标准近距离操作场景下,能够保证航天器严格遵守安全约束,任务性能与NMPC专家相当,同时在线计算量显著降低,可在商用处理器上实时运行。与NMPC相比,该方法在保证安全性的前提下,大幅降低了计算复杂度,为航天器在轨自主控制提供了新的解决方案。
🎯 应用场景
该研究成果可应用于航天器在轨服务、空间碎片清除、行星探测等领域。通过模仿学习和安全约束,可以实现航天器在复杂环境下的自主安全控制,降低任务风险和成本,提高任务效率。未来,该技术有望推广到其他需要安全保障的机器人控制领域。
📄 摘要(原文)
This paper presents a safety-guaranteed, runtime-efficient imitation learning framework for spacecraft close proximity control. We leverage Control Barrier Functions (CBFs) for safety certificates and Control Lyapunov Functions (CLFs) for stability as unified design principles across data generation, training, and deployment. First, a nonlinear Model Predictive Control (NMPC) expert enforces CBF constraints to provide safe reference trajectories. Second, we train a neural policy with a novel CBF-CLF-informed loss and DAgger-like rollouts with curriculum weighting, promoting data-efficiency and reducing future safety filter interventions. Third, at deployment a lightweight one-step CBF-CLF quadratic program minimally adjusts the learned control input to satisfy hard safety constraints while encouraging stability. We validate the approach for ESA-compliant close proximity operations, including fly-around with a spherical keep-out zone and final approach inside a conical approach corridor, using the Basilisk high-fidelity simulator with nonlinear dynamics and perturbations. Numerical experiments indicate stable convergence to decision points and strict adherence to safety under the filter, with task performance comparable to the NMPC expert while significantly reducing online computation. A runtime analysis demonstrates real-time feasibility on a commercial off-the-shelf processor, supporting onboard deployment for safety-critical on-orbit servicing.