Coupled Rendezvous and Docking Maneuver control of satellite using Reinforcement learning-based Adaptive Fixed-Time Sliding Mode Controller

📄 arXiv: 2502.09517v2 📥 PDF

作者: Rakesh Kumar Sahoo, Manoranjan Sinha

分类: eess.SY

发布日期: 2025-02-13 (更新: 2025-05-12)


💡 一句话要点

提出基于强化学习自适应固定时间滑模控制的卫星交会对接方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 卫星交会对接 强化学习 滑模控制 自适应控制 固定时间控制

📋 核心要点

  1. 传统固定参数滑模控制器难以应对卫星交会对接中未知环境带来的不确定性,导致性能下降。
  2. 利用强化学习自适应调整固定时间滑模面的斜率,神经网络确定最优增益,提升控制器的鲁棒性。
  3. 仿真结果表明,该方法能够在不确定空间环境中有效完成卫星交会对接任务,验证了其有效性。

📝 摘要(中文)

本文提出了一种基于强化学习的自适应固定时间滑模控制器,用于解决未知空间环境中卫星交会对接问题。针对传统固定参数滑模控制器在复杂环境下性能下降的问题,该方法利用强化学习实时调整固定时间滑模面的斜率。采用神经网络模型确定固定时间滑模趋近律的最优增益。为保证系统几何结构的完整性,在切空间而非流形上添加噪声来模拟系统的不确定性。使用Actor-Critic方法,通过强化学习近似器估计系统的动态模型。所提出的控制算法将神经网络和滑模控制器以级联环路架构集成,跟踪误差动态调整滑模面增益。通过Lyapunov理论证明了闭环反馈系统的全局固定时间稳定性。仿真结果验证了该方法在不确定环境下完成任务的有效性。

🔬 方法详解

问题定义:论文旨在解决卫星在未知空间环境下的交会对接问题。由于引力场变化、大气阻力以及与空间碎片等不可预测的相互作用,卫星动力学具有固有的不确定性。传统的固定参数滑模控制器难以在这些波动条件下保持最佳性能,因此需要一种自适应控制器来实时调整增益,以应对这些挑战。

核心思路:论文的核心思路是利用强化学习来动态调整固定时间滑模控制器的参数,使其能够适应未知环境中的不确定性。通过强化学习,控制器可以学习到最优的控制策略,从而提高交会对接的精度和鲁棒性。

技术框架:该方法采用级联环路架构,将神经网络和滑模控制器集成在一起。首先,利用神经网络模型作为强化学习中的Actor-Critic结构,估计系统的动态模型并确定固定时间滑模趋近律的最优增益。然后,将这些增益用于调整固定时间滑模控制器的参数,从而实现对卫星的精确控制。跟踪误差被用于动态调整滑模面增益。

关键创新:该方法最重要的创新点在于将强化学习与固定时间滑模控制相结合,实现了控制器参数的自适应调整。与传统的固定参数滑模控制器相比,该方法能够更好地适应未知环境中的不确定性,提高控制器的鲁棒性和精度。此外,在添加噪声模拟系统不确定性时,选择在切空间而非流形上添加,以保证系统几何结构的完整性。

关键设计:论文使用神经网络作为强化学习中的函数逼近器,用于估计系统的动态模型和值函数。具体来说,Actor网络用于生成控制策略,Critic网络用于评估控制策略的价值。损失函数的设计需要考虑控制精度、稳定性和能量消耗等因素。此外,固定时间滑模面的参数选择也会影响控制器的性能,需要根据具体的应用场景进行调整。

📊 实验亮点

论文通过仿真实验验证了所提出方法的有效性。仿真结果表明,该方法能够在存在不确定性的空间环境中实现卫星的精确交会对接,并且具有良好的鲁棒性和稳定性。虽然论文中没有给出具体的性能数据和对比基线,但强调了该方法在应对不确定性方面的优势。

🎯 应用场景

该研究成果可应用于空间机器人的自主交会对接、空间碎片清除、卫星在轨服务等领域。通过提高卫星交会对接的精度和鲁棒性,可以降低任务风险,提高任务效率,并为未来的深空探测任务提供技术支持。此外,该方法也可以推广到其他具有不确定性的控制系统中。

📄 摘要(原文)

Satellite dynamics in unknown environments are inherently uncertain due to factors such as varying gravitational fields, atmospheric drag, and unpredictable interactions with space debris or other celestial bodies. Traditional sliding mode controllers with fixed parameters often struggle to maintain optimal performance under these fluctuating conditions. Therefore, an adaptive controller is essential to address these challenges by continuously tuning its gains in real-time. In this paper, we have tuned the slopes of the Fixed-time Sliding surface adaptively using reinforcement learning for coupled rendezvous and docking maneuver of chaser satellite with the target satellite in an unknown space environment. The neural network model is used to determine the optimal gains of reaching law of the fixed-time sliding surface. We have assumed that we don't have an accurate model of the system so we have added noise in the tangent space instead of directly on the manifold to preserve the geometric structure of the system while ensuring mathematically consistent uncertainty propagation. The reinforcement learning is used as an approximator to represent the value function of the agent to estimate the dynamical model of the system using the Actor-Critic method. The proposed control algorithm integrates a neural network and a sliding mode controller in a cascade loop architecture, where the tracking error dynamically tunes the sliding surface gains. Global fixed-time stability of the closed-loop feedback system is proved within the Lyapunov framework. This comprehensive approach of fixed-time sliding mode controller using a Reinforcement Learning based ensures the completion of the mission efficiently while addressing the critical challenges posed by the uncertain environment. The simulation results presented support the claims made.