Imitation Learning for Satellite Attitude Control under Unknown Perturbations
作者: Zhizhuo Zhang, Hao Peng, Xiaoli Bai
分类: eess.SY, cs.RO
发布日期: 2025-07-01
备注: 2025 AAS/AIAA Astrodynamics Specialist Conference
💡 一句话要点
提出基于SAC和GAIL的卫星姿态控制框架,提升未知扰动下的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 卫星姿态控制 强化学习 模仿学习 软演员-评论家 生成对抗模仿学习
📋 核心要点
- 传统卫星姿态控制依赖精确模型,易受参数不确定性和外部扰动影响,鲁棒性不足。
- 利用SAC强化学习训练专家控制器,提升对执行器故障、传感器噪声和姿态不对准的鲁棒性。
- 使用GAIL模仿学习专家轨迹,降低训练成本,提高泛化能力,实现更智能的自主控制。
📝 摘要(中文)
本文提出了一种新的卫星姿态控制框架,该框架集成了软演员-评论家(SAC)强化学习和生成对抗模仿学习(GAIL),以在各种未知扰动下实现鲁棒的性能。传统的控制技术通常依赖于精确的系统模型,并且对参数不确定性和外部扰动敏感。为了克服这些限制,我们首先开发了一个基于SAC的专家控制器,该控制器在执行器故障、传感器噪声和姿态不对准方面表现出更强的鲁棒性,优于我们之前的研究结果。然后,我们使用GAIL训练一个学习策略,模仿专家的轨迹,从而降低训练成本,并通过专家演示提高泛化能力。在单一和组合扰动下的初步实验表明,SAC专家可以将天线旋转到指定的方向,并在大多数列出的扰动中保持天线方向的可靠稳定。此外,GAIL学习器可以模仿SAC专家生成的轨迹中的大多数特征。比较评估和消融研究证实了SAC算法和奖励塑造的有效性。GAIL的集成进一步降低了样本复杂度,并展示了有希望的模仿能力,为更智能和自主的航天器控制系统铺平了道路。
🔬 方法详解
问题定义:卫星姿态控制旨在精确调整和稳定卫星的姿态,但传统方法对模型精度要求高,难以应对实际运行中未知的扰动(如执行器故障、传感器噪声等)。这些扰动会导致控制性能下降甚至失效。
核心思路:采用强化学习(特别是SAC算法)训练一个鲁棒的专家控制器,使其能够适应各种未知扰动。然后,利用模仿学习(GAIL)让一个学习策略模仿专家控制器的行为,从而在降低训练成本的同时,继承专家的鲁棒性。
技术框架:该框架包含两个主要部分:1) 基于SAC的专家控制器训练;2) 基于GAIL的学习策略训练。首先,通过强化学习训练SAC专家,使其在各种扰动下都能实现良好的姿态控制。然后,利用SAC专家生成的轨迹作为GAIL的专家数据,训练一个学习策略,使其能够模仿专家的行为。
关键创新:该方法将强化学习和模仿学习相结合,利用强化学习的鲁棒性和模仿学习的样本效率。SAC算法本身是一种off-policy的actor-critic方法,能够有效地探索状态空间,找到最优策略。GAIL则通过对抗学习的方式,使得学习策略的分布逼近专家策略的分布,从而避免了直接策略梯度方法的高方差问题。
关键设计:SAC算法使用最大熵目标函数,鼓励探索,避免陷入局部最优。奖励函数的设计至关重要,需要仔细考虑姿态误差、控制力矩等因素。GAIL使用生成器和判别器进行对抗训练,生成器负责生成模仿专家行为的轨迹,判别器负责区分生成的轨迹和专家轨迹。通过对抗训练,生成器不断优化,最终能够生成与专家轨迹相似的轨迹。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SAC专家控制器在各种扰动下均能实现良好的姿态控制,优于传统方法。GAIL学习器能够有效地模仿SAC专家的行为,降低了样本复杂度。在单一和组合扰动下的实验验证了该框架的有效性,表明其具有良好的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于各种航天器姿态控制任务,尤其是在存在未知扰动和不确定性的环境中,例如深空探测、空间碎片清除等。通过模仿学习,可以降低对精确系统模型的依赖,提高控制系统的自主性和适应性,从而降低运营成本并提高任务成功率。
📄 摘要(原文)
This paper presents a novel satellite attitude control framework that integrates Soft Actor-Critic (SAC) reinforcement learning with Generative Adversarial Imitation Learning (GAIL) to achieve robust performance under various unknown perturbations. Traditional control techniques often rely on precise system models and are sensitive to parameter uncertainties and external perturbations. To overcome these limitations, we first develop a SAC-based expert controller that demonstrates improved resilience against actuator failures, sensor noise, and attitude misalignments, outperforming our previous results in several challenging scenarios. We then use GAIL to train a learner policy that imitates the expert's trajectories, thereby reducing training costs and improving generalization through expert demonstrations. Preliminary experiments under single and combined perturbations show that the SAC expert can rotate the antenna to a specified direction and keep the antenna orientation reliably stable in most of the listed perturbations. Additionally, the GAIL learner can imitate most of the features from the trajectories generated by the SAC expert. Comparative evaluations and ablation studies confirm the effectiveness of the SAC algorithm and reward shaping. The integration of GAIL further reduces sample complexity and demonstrates promising imitation capabilities, paving the way for more intelligent and autonomous spacecraft control systems.