Imitation learning-based spacecraft rendezvous and docking method with Expert Demonstration

📄 arXiv: 2601.12952v1 📥 PDF

作者: Shibo Shao, Dong Zhou, Guanghui Sun, Liwen Zhang, Mingxuan Jiang

分类: cs.RO, eess.SY

发布日期: 2026-01-19

备注: 6 figures, 4 tables. Focus on 6-DOF spacecraft rendezvous and docking control using imitation learning-based control method

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于模仿学习的航天器交会对接方法,提升复杂环境下的鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 航天器交会对接 模仿学习 Transformer模型 无模型控制 鲁棒性 锚定解码器 时间聚合

📋 核心要点

  1. 现有航天器交会对接方法依赖精确模型,在复杂在轨环境中鲁棒性不足。
  2. 提出基于模仿学习的控制框架,通过锚定解码器和时间聚合机制,提升控制的物理一致性和稳定性。
  3. 仿真结果表明,该框架实现了精确节能的无模型控制,并在未知扰动下表现出良好的鲁棒性。

📝 摘要(中文)

本文提出了一种基于模仿学习的航天器交会对接控制框架(IL-SRD),该框架直接从专家演示中学习控制策略,从而减少对精确建模的依赖,解决现有航天器交会对接控制方法过度依赖预定义动态模型,在实际在轨环境中鲁棒性有限的问题。我们提出了一种锚定解码器目标机制,该机制将解码器查询置于与状态相关的锚点上,以显式地约束控制生成过程,从而保证控制演化的物理一致性,并有效抑制序列预测中不合理的动作偏差,实现可靠的六自由度(6-DOF)交会对接控制。为了进一步提高稳定性,我们还引入了一种时间聚合机制,以减轻基于Transformer模型的序列预测带来的误差累积。大量的仿真结果表明,所提出的IL-SRD框架实现了精确和节能的无模型交会对接控制。鲁棒性评估进一步证实了其在显著未知扰动下保持竞争力的能力。

🔬 方法详解

问题定义:现有航天器交会对接控制方法严重依赖于预定义的动力学模型,这在实际复杂的在轨环境中面临鲁棒性挑战。精确建模的难度以及各种未知扰动的存在,使得传统控制方法难以保证交会对接的精度和稳定性。因此,需要一种能够减少对精确模型依赖,并具有良好鲁棒性的控制方法。

核心思路:本文的核心思路是利用模仿学习,直接从专家演示数据中学习控制策略,从而避免了对航天器动力学模型的精确建模。通过模仿学习,控制器能够学习到专家在各种复杂环境下的控制行为,从而提高在实际在轨环境中的鲁棒性。

技术框架:IL-SRD框架主要包含三个部分:专家演示数据生成、模仿学习模型训练和控制策略执行。首先,通过仿真或其他方式生成专家演示数据,这些数据包含了航天器的状态信息和对应的控制指令。然后,使用Transformer模型作为模仿学习的核心,训练一个能够根据当前状态预测控制指令的策略网络。最后,将训练好的策略网络部署到航天器上,根据当前状态实时生成控制指令,实现交会对接控制。

关键创新:本文的关键创新在于提出了锚定解码器目标机制和时间聚合机制。锚定解码器目标机制通过将解码器查询置于与状态相关的锚点上,显式地约束控制生成过程,保证控制演化的物理一致性,并抑制不合理的动作偏差。时间聚合机制则通过对多个时间步的预测结果进行聚合,减轻了Transformer模型序列预测带来的误差累积,提高了控制的稳定性。

关键设计:在锚定解码器目标机制中,锚点的位置是根据航天器的状态信息计算得到的,例如位置、速度等。损失函数采用均方误差损失,用于衡量预测控制指令与专家演示数据之间的差异。时间聚合机制中,聚合的窗口大小是一个重要的参数,需要根据具体的任务进行调整。Transformer模型的网络结构包括编码器和解码器,编码器用于提取状态信息的特征,解码器用于生成控制指令。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,所提出的IL-SRD框架能够实现精确和节能的无模型交会对接控制。在存在显著未知扰动的情况下,该框架仍然能够保持竞争力的性能,验证了其良好的鲁棒性。与传统的基于模型的控制方法相比,该方法在复杂环境下的表现更加出色,能够更好地适应实际在轨环境。

🎯 应用场景

该研究成果可应用于各种航天器交会对接任务,例如空间站补给、卫星维修、碎片清除等。通过减少对精确模型的依赖,提高在复杂环境下的鲁棒性,该方法有望降低交会对接任务的成本和风险,并为未来的深空探测任务提供技术支持。未来,该方法还可以扩展到其他航天器控制领域,例如姿态控制、轨道控制等。

📄 摘要(原文)

Existing spacecraft rendezvous and docking control methods largely rely on predefined dynamic models and often exhibit limited robustness in realistic on-orbit environments. To address this issue, this paper proposes an Imitation Learning-based spacecraft rendezvous and docking control framework (IL-SRD) that directly learns control policies from expert demonstrations, thereby reducing dependence on accurate modeling. We propose an anchored decoder target mechanism, which conditions the decoder queries on state-related anchors to explicitly constrain the control generation process. This mechanism enforces physically consistent control evolution and effectively suppresses implausible action deviations in sequential prediction, enabling reliable six-degree-of-freedom (6-DOF) rendezvous and docking control. To further enhance stability, a temporal aggregation mechanism is incorporated to mitigate error accumulation caused by the sequential prediction nature of Transformer-based models, where small inaccuracies at each time step can propagate and amplify over long horizons. Extensive simulation results demonstrate that the proposed IL-SRD framework achieves accurate and energy-efficient model-free rendezvous and docking control. Robustness evaluations further confirm its capability to maintain competitive performance under significant unknown disturbances. The source code is available at https://github.com/Dongzhou-1996/IL-SRD.