Safe Reinforcement Learning Beyond Baseline Control: A Hierarchical Framework for Space Triangle Tethered Formation System

📄 arXiv: 2601.04957v1 📥 PDF

作者: Xinyi Tao, Panfeng Huang, Fan Zhang

分类: eess.SY

发布日期: 2026-01-08

备注: This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出基于分层强化学习的空间三角形系绳编队系统安全控制框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 空间三角形系绳编队系统 模型参考控制 软演员-评论家算法 分层控制 深空探测 分布式传感

📋 核心要点

  1. 传统TTFS控制方法难以平衡配置精度、张力约束和能源效率,面临耦合动力学和扰动敏感性的挑战。
  2. 提出一种模型参考强化学习控制框架,结合基线模型控制和SAC补偿器,实现高精度、高效率和安全性。
  3. 仿真结果表明,该控制器显著降低了跟踪误差和燃料消耗,验证了其在TTFS部署控制中的有效性和稳定性。

📝 摘要(中文)

本文提出了一种用于空间三角形系绳编队系统(TTFS)的新型模型参考强化学习控制框架。TTFS由于其固有的空间方向稳定性和通过系绳部署和回收来调整节点卫星之间距离的能力,为深空探测和分布式传感提供了一个有前景的平台。然而,由于TTFS中耦合的系绳-卫星动力学和对扰动的敏感性,传统的控制方法难以在配置精度要求、张力约束和整个部署过程中的能源效率消耗之间取得平衡。该方法集成了基于模型的基线控制和一个软演员-评论家(SAC)补偿器,同时实现了高精度跟踪、燃料效率和符合张力限制。开发了一种分层训练方案,以解决集中训练中强耦合状态引起的收敛困难,同时设计了定制的奖励函数、重置条件和归一化标准,以加速训练收敛。使用李雅普诺夫方法严格证明了整体控制律的闭环稳定性。仿真结果表明,与基线方法相比,所提出的控制器将系绳的稳态跟踪误差降低了96%以上,节点卫星的稳态跟踪误差降低了99%以上,同时燃料消耗降低了两个数量级。这些结果验证了所提出的TTFS部署控制方法的有效性和稳定性。

🔬 方法详解

问题定义:论文旨在解决空间三角形系绳编队系统(TTFS)在部署过程中,传统控制方法难以同时满足高精度跟踪、燃料效率和张力约束的问题。现有方法由于TTFS耦合的系绳-卫星动力学和对扰动的敏感性,无法在这些目标之间取得良好的平衡。

核心思路:论文的核心思路是将传统的基于模型的控制方法与强化学习相结合,利用基于模型的控制提供初始控制策略,并通过强化学习(具体为软演员-评论家算法SAC)进行补偿和优化,从而在保证安全性的前提下,提高控制性能和燃料效率。这种结合方式既能利用模型控制的稳定性,又能发挥强化学习的自适应能力。

技术框架:整体框架采用分层控制结构。第一层是基于模型的基线控制器,用于提供初始控制输入和保证系统的基本稳定性。第二层是SAC补偿器,用于学习残差控制量,以进一步提高跟踪精度和降低燃料消耗。训练过程也采用分层方式,先训练基线控制器,再训练SAC补偿器,以解决集中训练中强耦合状态导致的收敛困难。框架还包括定制的奖励函数、重置条件和归一化标准,以加速训练收敛。

关键创新:论文的关键创新在于将模型参考控制与强化学习相结合,并采用分层训练方案。与传统的纯模型控制或纯强化学习控制相比,该方法能够更好地平衡控制性能、燃料效率和安全性。分层训练方案有效地解决了复杂系统中的训练收敛问题。此外,针对TTFS的特点,设计了定制的奖励函数、重置条件和归一化标准,进一步提高了训练效率。

关键设计:奖励函数的设计考虑了跟踪误差、燃料消耗和张力约束三个方面,通过加权求和的方式将这些目标整合到一个标量奖励中。重置条件的设计旨在使智能体能够从不同的状态开始学习,从而提高泛化能力。归一化标准用于将状态和动作缩放到合适的范围,以提高训练稳定性。SAC算法中的温度参数α用于平衡探索和利用,需要仔细调整。

📊 实验亮点

仿真结果表明,与基线方法相比,所提出的控制器将系绳的稳态跟踪误差降低了96%以上,节点卫星的稳态跟踪误差降低了99%以上,同时燃料消耗降低了两个数量级。这些显著的性能提升验证了该方法在TTFS部署控制中的有效性和优越性。

🎯 应用场景

该研究成果可应用于深空探测、分布式传感等领域,为空间三角形系绳编队系统的部署和控制提供了一种高效、安全的方法。通过精确控制节点卫星的位置和姿态,可以实现高精度的空间测量和数据采集,为科学研究和工程应用提供有力支持。此外,该方法还可以推广到其他复杂航天器的控制问题中。

📄 摘要(原文)

Triangular tethered formation system (TTFS) provide a promising platform for deep space exploration and distributed sensing due to its intrinsic spatial-orientation stability and capability of adjusting distances among node satellites through deployment and retrieval of tethers. However, due to the coupled tether-satellite dynamics and disturbance sensitivity of TTFS, traditional control methods struggle to achieve a balanced trade-off among configuration accuracy requirements, tension constraints, and energy efficiency consumption throughout the deployment process.In this paper, a novel model-reference reinforcement learning control framework is proposed for TTFS. By integrating baseline model-based control with a Soft Actor-Critic (SAC) compensator, the proposed method simultaneously achieves high-precision tracking, fuel efficiency, and compliance with tension limits. A hierarchical training scheme is developed to address the convergence difficulties arising from strongly coupled states in centralized training, while tailored reward functions, reset conditions, and normalization criteria are designed to accelerate training convergence. Closed-loop stability of the overall control law is rigorously proven using Lyapunov methods. Simulation results demonstrate that the proposed controller reduces steady-state tracking errors by over 96% for tethers and 99% for node satellites, while cutting fuel consumption by two orders of magnitude compared with the baseline method. These results validate the effectiveness and stability of the proposed approach for TTFS deployment control.