A causal learning approach to in-orbit inertial parameter estimation for multi-payload deployers
作者: Konstantinos Platanitis, Miguel Arana-Catania, Saurabh Upadhyay, Leonard Felicetti
分类: eess.SY, astro-ph.IM, cs.LG, cs.RO
发布日期: 2025-01-21
备注: 10 pages, 18 figures, 1 table. Presented in 75th International Astronautical Congress (IAC), Milan, Italy, 14-18 October 2024
💡 一句话要点
提出基于因果学习的在轨惯性参数估计方法,用于多载荷部署航天器。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 因果学习 惯性参数估计 强化学习 在轨估计 多载荷部署 时间序列聚类 航天器控制
📋 核心要点
- 现有方法难以在轨精确估计多载荷部署航天器的惯性参数,影响控制精度和任务可靠性。
- 利用因果学习,通过主动激励航天器并分析其响应,建立惯性参数与响应之间的因果关系模型。
- 通过强化学习优化激励序列,最大化分类器性能,实现惯性参数的准确估计和配置转换验证。
📝 摘要(中文)
本文探讨了一种基于因果学习的货物运输航天器惯性参数估计方法。该方法通过模拟不同航天器配置(惯性参数集)在不同驱动剖面下的响应,生成一个优化的时间序列聚类分类器,用于区分这些配置。驱动由有限序列的恒定输入组成,这些输入基于典型的可用执行器按顺序应用。通过学习系统在多个输入序列中的响应,然后应用时间序列相似性和F1分数度量,可以选择针对特定系统配置或整体可能配置的最佳驱动序列。这允许在没有任何状态先验知识的情况下估计惯性参数集,以及验证部署事件后不同配置之间的转换。驱动序列的优化由强化学习模型处理,该模型使用近端策略优化(PPO)算法,通过重复尝试不同的序列并根据多目标指标评估对分类器性能的影响。
🔬 方法详解
问题定义:论文旨在解决多载荷部署航天器在轨惯性参数估计的问题。传统方法通常依赖于预先设定的模型或需要大量的先验知识,难以适应部署事件后航天器配置的变化。现有方法的痛点在于无法在状态未知的情况下准确估计惯性参数,并且缺乏对配置转换的有效验证手段。
核心思路:论文的核心思路是利用因果学习,通过主动激励航天器并分析其响应来推断惯性参数。具体来说,通过模拟不同惯性参数配置下的航天器在不同驱动序列下的响应,建立一个时间序列聚类分类器。该分类器能够根据航天器的响应来区分不同的惯性参数集,从而实现惯性参数的估计。此外,通过比较部署事件前后分类器的输出,可以验证配置转换的正确性。
技术框架:整体框架包括以下几个主要模块:1) 航天器动力学模型仿真模块,用于生成不同惯性参数配置和驱动序列下的航天器响应数据;2) 时间序列聚类分类器构建模块,利用仿真数据训练分类器,使其能够区分不同的惯性参数集;3) 驱动序列优化模块,使用强化学习算法(PPO)优化驱动序列,以最大化分类器的性能;4) 惯性参数估计和配置转换验证模块,利用优化后的驱动序列和分类器,估计航天器的惯性参数并验证配置转换。
关键创新:论文的关键创新在于将因果学习和强化学习相结合,用于解决航天器在轨惯性参数估计问题。与传统方法相比,该方法不需要大量的先验知识,并且能够适应航天器配置的变化。此外,通过强化学习优化驱动序列,可以显著提高惯性参数估计的准确性和效率。
关键设计:驱动序列由有限序列的恒定输入组成,这些输入基于典型的可用执行器按顺序应用。时间序列相似性采用动态时间规整(DTW)等方法进行度量。强化学习模型使用近端策略优化(PPO)算法,奖励函数设计为多目标优化,包括分类器的准确率、效率和驱动能量等因素。
📊 实验亮点
论文通过仿真实验验证了该方法的有效性。实验结果表明,通过优化驱动序列,可以显著提高惯性参数估计的准确性和效率。此外,该方法还能够有效地验证部署事件后航天器配置的转换,为航天器的安全运行提供了保障。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于多载荷部署航天器、空间站等航天器的在轨惯性参数估计和配置验证,提高航天器的控制精度和任务可靠性。此外,该方法还可以推广到其他需要进行参数估计和状态辨识的复杂系统,例如机器人、无人机等。
📄 摘要(原文)
This paper discusses an approach to inertial parameter estimation for the case of cargo carrying spacecraft that is based on causal learning, i.e. learning from the responses of the spacecraft, under actuation. Different spacecraft configurations (inertial parameter sets) are simulated under different actuation profiles, in order to produce an optimised time-series clustering classifier that can be used to distinguish between them. The actuation is comprised of finite sequences of constant inputs that are applied in order, based on typical actuators available. By learning from the system's responses across multiple input sequences, and then applying measures of time-series similarity and F1-score, an optimal actuation sequence can be chosen either for one specific system configuration or for the overall set of possible configurations. This allows for both estimation of the inertial parameter set without any prior knowledge of state, as well as validation of transitions between different configurations after a deployment event. The optimisation of the actuation sequence is handled by a reinforcement learning model that uses the proximal policy optimisation (PPO) algorithm, by repeatedly trying different sequences and evaluating the impact on classifier performance according to a multi-objective metric.