Space Processor Computation Time Analysis for Reinforcement Learning and Run Time Assurance Control Policies

作者: Kyle Dunlap, Nathaniel Hamilton, Francisco Viramontes, Derrek Landauer, Evan Kain, Kerianne L. Hobbs

分类: eess.SY

发布日期: 2024-05-10

💡 一句话要点

针对星载强化学习与运行时保障控制，分析空间处理器的计算耗时

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 运行时保障 空间处理器 自主控制 星载计算 神经网络控制器 实时性分析

📋 核心要点

现有星载任务面临日益增长的航天器数量带来的监控和规划挑战，需要更自主的控制方法。
论文探索了在空间级处理器上部署强化学习（RL）和运行时保障（RTA）算法的可行性，以实现自主安全控制。
实验结果表明，神经网络控制器（NNC）和大多数RTA算法能够在空间级处理器上实现实时计算，为实际部署奠定基础。

📝 摘要（中文）

随着在轨航天器数量的持续增长，人类操作员不断监控和规划所有任务变得极具挑战性。强化学习（RL）等自主控制方法有能力解决复杂任务，同时减少对持续操作员干预的需求。通过将RL解决方案与运行时保障（RTA）相结合，可以实时确保这些系统的安全性。然而，为了在航天器上使用这些算法，它们必须能够在空间级处理器上实时运行，而空间级处理器通常过时且性能低于最先进的设备。本文在商用现货（COTS）和耐辐射处理器上测试了多个RL训练的神经网络控制器（NNC）和RTA算法。结果表明，所有NNC和大多数RTA算法都可以在远低于1秒的时间内计算出最优和安全的动作，并且在实际部署之前还有进一步优化的空间。

🔬 方法详解

问题定义：论文旨在解决在资源受限的空间级处理器上实时运行强化学习（RL）和运行时保障（RTA）算法的问题。现有方法的痛点在于，星载处理器计算能力有限，难以满足复杂RL算法的计算需求，从而限制了自主控制在航天器上的应用。

核心思路：论文的核心思路是评估不同的RL训练的神经网络控制器（NNC）和RTA算法在空间级处理器上的计算性能，验证其是否能够在实时约束下完成计算任务。通过实验分析，确定哪些算法适合在星载环境下部署，并为进一步优化提供指导。

技术框架：论文的技术框架主要包括以下几个步骤：1) 选择合适的RL算法训练神经网络控制器（NNC）；2) 选择不同的运行时保障（RTA）算法；3) 在商用现货（COTS）和耐辐射处理器上部署和测试这些算法；4) 测量和分析算法的计算时间，评估其是否满足实时性要求。

关键创新：论文的关键创新在于针对星载环境，对RL和RTA算法的计算性能进行了实际评估。以往的研究可能更多关注算法的理论性能或在高性能计算平台上的表现，而忽略了空间级处理器的特殊性。该研究为在星载平台上部署自主控制算法提供了重要的参考依据。

关键设计：论文的关键设计包括：选择具有代表性的RL算法（具体算法未知），训练得到神经网络控制器；选择不同的RTA算法（具体算法未知），用于保障系统的安全性；选择商用现货（COTS）和耐辐射处理器作为测试平台，模拟实际的星载环境；使用精确的计时方法测量算法的计算时间，并进行统计分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所有测试的神经网络控制器（NNC）和大多数运行时保障（RTA）算法都能够在远低于1秒的时间内计算出最优和安全的动作。这表明，即使在计算资源有限的空间级处理器上，也能够实现RL和RTA算法的实时部署。此外，论文还指出，在实际部署之前，这些算法还有进一步优化的空间，例如通过模型压缩、代码优化等手段来降低计算复杂度。

🎯 应用场景

该研究成果可应用于各类航天任务，例如卫星姿态控制、轨道维护、故障诊断与修复等。通过在星载平台上部署自主控制算法，可以减少对地面站的依赖，提高任务的自主性和灵活性，降低运营成本，并提升航天器的生存能力。未来，随着空间计算能力的提升，更复杂的RL算法有望在星载平台上得到应用。

📄 摘要（原文）

As the number of spacecraft on orbit continues to grow, it is challenging for human operators to constantly monitor and plan for all missions. Autonomous control methods such as reinforcement learning (RL) have the power to solve complex tasks while reducing the need for constant operator intervention. By combining RL solutions with run time assurance (RTA), safety of these systems can be assured in real time. However, in order to use these algorithms on board a spacecraft, they must be able to run in real time on space grade processors, which are typically outdated and less capable than state-of-the-art equipment. In this paper, multiple RL-trained neural network controllers (NNCs) and RTA algorithms were tested on commercial-off-the-shelf (COTS) and radiation tolerant processors. The results show that all NNCs and most RTA algorithms can compute optimal and safe actions in well under 1 second with room for further optimization before deploying in the real world.

Space Processor Computation Time Analysis for Reinforcement Learning and Run Time Assurance Control Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理