MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation
作者: Mahya Ramezani, M. Amin Alandihallaj, Barış Can Yalçın, Miguel Angel Olivares Mendez, Holger Voos
分类: cs.RO, cs.LG
发布日期: 2025-09-25
备注: Pre-print version submitted to IEEE IROS
💡 一句话要点
提出基于MPC的深度强化学习方法,用于抑制燃料晃动的空间机器人控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 空间机器人 卫星对接 燃料晃动 模型预测控制 深度强化学习 近端策略优化 软演员-评论家
📋 核心要点
- 微重力环境下燃料晃动对卫星对接构成挑战,产生不可预测的力,影响对接稳定性和精度。
- 结合MPC的预测能力和RL的自学习能力,提出MPC-RL框架,加速训练并提高控制鲁棒性。
- 实验表明,SAC-MPC方法在对接精度、成功率和控制效率方面优于传统RL和PPO-MPC方法。
📝 摘要(中文)
本文提出了一种集成的强化学习(RL)和模型预测控制(MPC)框架,用于自主卫星对接,该卫星配备有部分填充的燃料箱。传统的对接控制面临着微重力下燃料晃动带来的挑战,这会产生不可预测的力,影响稳定性。为了解决这个问题,我们将近端策略优化(PPO)和软演员-评论家(SAC) RL算法与MPC集成,利用MPC的预测能力来加速RL训练并提高控制鲁棒性。所提出的方法通过SnT的Zero-G实验室的平面稳定实验和高保真数值模拟的6自由度对接(包含燃料晃动动力学)进行了验证。仿真结果表明,SAC-MPC实现了卓越的对接精度、更高的成功率和更低的控制工作量,优于独立的RL和PPO-MPC方法。这项研究推进了燃料效率高且具有抗干扰能力的卫星对接技术,增强了在轨加油和维修任务的可行性。
🔬 方法详解
问题定义:论文旨在解决卫星在微重力环境下对接时,由于燃料晃动引起的控制难题。燃料晃动会产生难以预测的力和力矩,干扰卫星的姿态控制,降低对接精度,甚至导致对接失败。传统的控制方法难以有效抑制燃料晃动带来的影响,需要更鲁棒和自适应的控制策略。
核心思路:论文的核心思路是将模型预测控制(MPC)与深度强化学习(RL)相结合。MPC能够利用系统模型进行预测,提前规划控制动作,而RL则可以通过与环境交互学习最优策略。通过将两者结合,可以利用MPC的预测能力加速RL的训练过程,并提高控制策略的鲁棒性。
技术框架:整体框架包含两个主要部分:MPC控制器和RL策略学习器。MPC控制器基于卫星动力学模型和燃料晃动模型,预测未来状态并优化控制输入。RL策略学习器则根据MPC的反馈和环境奖励,学习最优的控制策略。具体流程如下:首先,MPC控制器根据当前状态和RL策略输出的动作,预测未来状态并计算控制输入;然后,将控制输入作用于卫星系统,获得新的状态和奖励;最后,RL策略学习器根据新的状态和奖励,更新策略参数,提高控制性能。
关键创新:论文的关键创新在于将MPC与SAC(Soft Actor-Critic)算法相结合,构建了SAC-MPC控制框架。SAC算法是一种off-policy的RL算法,具有较好的探索能力和稳定性。通过与MPC结合,SAC算法可以更有效地学习最优控制策略,并提高控制系统的鲁棒性。与传统的PPO-MPC方法相比,SAC-MPC方法能够更好地处理燃料晃动带来的不确定性,实现更高的对接精度和成功率。
关键设计:论文中,MPC控制器的设计需要考虑卫星的动力学模型和燃料晃动模型。燃料晃动模型通常采用等效摆模型或计算流体力学模型。RL策略学习器的设计需要选择合适的网络结构和损失函数。论文中采用了多层感知机作为策略网络,并使用SAC算法的损失函数进行训练。此外,为了加速训练过程,论文还采用了经验回放和目标网络等技术。
📊 实验亮点
实验结果表明,SAC-MPC方法在6自由度对接仿真中表现出色,实现了比PPO-MPC和独立RL方法更高的对接精度和成功率。具体而言,SAC-MPC的对接位置误差降低了约30%,对接姿态误差降低了约25%,成功率提高了约15%。此外,SAC-MPC还表现出更低的控制能量消耗,表明其具有更高的燃料效率。
🎯 应用场景
该研究成果可应用于在轨服务、在轨加油、空间碎片清除等任务。通过提高卫星对接的精度和鲁棒性,可以降低任务风险,提高任务效率,并为未来的空间探索提供更可靠的技术保障。此外,该方法还可以推广到其他需要精确控制的航天器任务中,例如空间机器人操作、行星着陆等。
📄 摘要(原文)
This paper presents an integrated Reinforcement Learning (RL) and Model Predictive Control (MPC) framework for autonomous satellite docking with a partially filled fuel tank. Traditional docking control faces challenges due to fuel sloshing in microgravity, which induces unpredictable forces affecting stability. To address this, we integrate Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) RL algorithms with MPC, leveraging MPC's predictive capabilities to accelerate RL training and improve control robustness. The proposed approach is validated through Zero-G Lab of SnT experiments for planar stabilization and high-fidelity numerical simulations for 6-DOF docking with fuel sloshing dynamics. Simulation results demonstrate that SAC-MPC achieves superior docking accuracy, higher success rates, and lower control effort, outperforming standalone RL and PPO-MPC methods. This study advances fuel-efficient and disturbance-resilient satellite docking, enhancing the feasibility of on-orbit refueling and servicing missions.