Intelligent Control of Spacecraft Reaction Wheel Attitude Using Deep Reinforcement Learning

📄 arXiv: 2507.08366v1 📥 PDF

作者: Ghaith El-Dalahmeh, Mohammad Reza Jabbarpour, Bao Quoc Vo, Ryszard Kowalczyk

分类: cs.RO, cs.AI

发布日期: 2025-07-11


💡 一句话要点

提出基于TD3-HD的深度强化学习方法,提升反应轮姿态控制在故障条件下的卫星自主控制能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 卫星姿态控制 深度强化学习 反应轮故障 TD3 Hindsight Experience Replay 容错控制 自主控制

📋 核心要点

  1. 传统PD控制器和现有DRL算法在卫星姿态控制的实时适应性和容错性方面存在不足,难以应对动态和不确定环境下的反应轮故障。
  2. 论文提出TD3-HD方法,结合TD3、HER和DWC,旨在提高稀疏奖励环境下的学习效率,并增强反应轮故障期间的卫星姿态稳定性。
  3. 实验结果表明,TD3-HD在姿态误差、角速度调节和故障条件下的稳定性方面均优于PD控制和主流DRL算法。

📝 摘要(中文)

可靠的卫星姿态控制对于空间任务的成功至关重要,尤其是在卫星日益在动态和不确定环境中自主运行的情况下。反作用轮(RW)在姿态控制中起着关键作用,在RW发生故障时保持控制弹性对于维护任务目标和系统稳定性至关重要。然而,传统的比例微分(PD)控制器和现有的深度强化学习(DRL)算法,如TD3、PPO和A2C,通常无法提供自主卫星运行所需的实时适应性和容错性。本研究提出了一种基于DRL的控制策略,旨在提高卫星在故障条件下的弹性和适应性。具体而言,该方法集成了Twin Delayed Deep Deterministic Policy Gradient(TD3)与Hindsight Experience Replay(HER)和Dimension Wise Clipping(DWC),称为TD3-HD,以增强稀疏奖励环境中的学习,并在RW失效期间保持卫星稳定性。所提出的方法与PD控制和领先的DRL算法进行了基准测试。实验结果表明,TD3-HD实现了显著降低的姿态误差、改进的角速度调节以及在故障条件下增强的稳定性。这些发现强调了所提出的方法作为一种强大的、容错的、用于自主卫星姿态控制的机载AI解决方案的潜力。

🔬 方法详解

问题定义:论文旨在解决卫星在反应轮(RW)发生故障时,如何实现鲁棒且适应性强的姿态控制问题。现有方法,如传统PD控制器和常见的DRL算法(TD3、PPO、A2C),在实时性和容错性方面存在局限,难以满足自主卫星在复杂环境下的需求。

核心思路:论文的核心思路是利用深度强化学习(DRL)的自适应能力,通过结合Twin Delayed Deep Deterministic Policy Gradient (TD3)、Hindsight Experience Replay (HER) 和 Dimension Wise Clipping (DWC) 三种技术,构建一个名为TD3-HD的控制策略。这种组合旨在克服稀疏奖励环境下的学习难题,并提升系统在反应轮故障时的稳定性。

技术框架:整体框架包括环境模拟器(模拟卫星姿态动力学和反应轮故障)、TD3-HD智能体和奖励函数设计。TD3-HD智能体与环境交互,通过不断学习调整控制策略,以最小化姿态误差和角速度偏差。HER用于处理稀疏奖励问题,DWC用于限制动作空间,防止系统不稳定。

关键创新:关键创新在于TD3、HER和DWC的有效集成,形成TD3-HD。HER通过回溯经验,将失败的轨迹转化为成功的轨迹,从而加速学习过程。DWC通过对动作空间进行维度裁剪,限制了控制器的输出,避免了因过度控制而导致的系统不稳定。这种组合策略显著提升了在故障条件下的控制性能。

关键设计:奖励函数的设计至关重要,它综合考虑了姿态误差、角速度偏差和控制力矩的大小。网络结构方面,TD3采用Actor-Critic架构,包含两个Actor网络和两个Critic网络,以提高策略的稳定性和探索能力。DWC的具体实现是对每个维度的动作进行裁剪,防止其超出预设的范围。HER的实现是将未达到目标的经验样本,通过修改目标状态,使其变为达到目标的样本,从而增加有效经验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TD3-HD在姿态误差方面显著优于PD控制和主流DRL算法。具体而言,在反应轮故障条件下,TD3-HD能够将姿态误差降低到PD控制的50%以下,并且在角速度调节和稳定性方面也表现出明显的优势。这些结果验证了TD3-HD在故障容错控制方面的有效性。

🎯 应用场景

该研究成果可应用于各类需要高可靠性和自主性的航天任务,例如地球观测卫星、通信卫星、深空探测器等。通过提高卫星在故障条件下的姿态控制能力,可以延长卫星寿命,降低任务风险,并为未来的自主空间任务提供更可靠的技术保障。

📄 摘要(原文)

Reliable satellite attitude control is essential for the success of space missions, particularly as satellites increasingly operate autonomously in dynamic and uncertain environments. Reaction wheels (RWs) play a pivotal role in attitude control, and maintaining control resilience during RW faults is critical to preserving mission objectives and system stability. However, traditional Proportional Derivative (PD) controllers and existing deep reinforcement learning (DRL) algorithms such as TD3, PPO, and A2C often fall short in providing the real time adaptability and fault tolerance required for autonomous satellite operations. This study introduces a DRL-based control strategy designed to improve satellite resilience and adaptability under fault conditions. Specifically, the proposed method integrates Twin Delayed Deep Deterministic Policy Gradient (TD3) with Hindsight Experience Replay (HER) and Dimension Wise Clipping (DWC) referred to as TD3-HD to enhance learning in sparse reward environments and maintain satellite stability during RW failures. The proposed approach is benchmarked against PD control and leading DRL algorithms. Experimental results show that TD3-HD achieves significantly lower attitude error, improved angular velocity regulation, and enhanced stability under fault conditions. These findings underscore the proposed method potential as a powerful, fault tolerant, onboard AI solution for autonomous satellite attitude control.