Imitation learning-based spacecraft rendezvous and docking method with Expert Demonstration

作者: Shibo Shao, Dong Zhou, Guanghui Sun, Liwen Zhang, Mingxuan Jiang

分类: cs.RO, eess.SY

发布日期: 2026-01-19

备注: 6 figures, 4 tables. Focus on 6-DOF spacecraft rendezvous and docking control using imitation learning-based control method

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于模仿学习的航天器交会对接方法，提升复杂环境下的鲁棒性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 航天器交会对接 模仿学习 Transformer模型 无模型控制 鲁棒性 锚定解码器 时间聚合

📋 核心要点

现有航天器交会对接方法依赖精确模型，在复杂在轨环境中鲁棒性不足。
提出基于模仿学习的控制框架，通过锚定解码器和时间聚合机制，提升控制的物理一致性和稳定性。
仿真结果表明，该框架实现了精确节能的无模型控制，并在未知扰动下表现出良好的鲁棒性。

📝 摘要（中文）

本文提出了一种基于模仿学习的航天器交会对接控制框架(IL-SRD)，该框架直接从专家演示中学习控制策略，从而减少对精确建模的依赖，解决现有航天器交会对接控制方法过度依赖预定义动态模型，在实际在轨环境中鲁棒性有限的问题。我们提出了一种锚定解码器目标机制，该机制将解码器查询置于与状态相关的锚点上，以显式地约束控制生成过程，从而保证控制演化的物理一致性，并有效抑制序列预测中不合理的动作偏差，实现可靠的六自由度(6-DOF)交会对接控制。为了进一步提高稳定性，我们还引入了一种时间聚合机制，以减轻基于Transformer模型的序列预测带来的误差累积。大量的仿真结果表明，所提出的IL-SRD框架实现了精确和节能的无模型交会对接控制。鲁棒性评估进一步证实了其在显著未知扰动下保持竞争力的能力。

🔬 方法详解

问题定义：现有航天器交会对接控制方法严重依赖于预定义的动力学模型，这在实际复杂的在轨环境中面临鲁棒性挑战。精确建模的难度以及各种未知扰动的存在，使得传统控制方法难以保证交会对接的精度和稳定性。因此，需要一种能够减少对精确模型依赖，并具有良好鲁棒性的控制方法。

核心思路：本文的核心思路是利用模仿学习，直接从专家演示数据中学习控制策略，从而避免了对航天器动力学模型的精确建模。通过模仿学习，控制器能够学习到专家在各种复杂环境下的控制行为，从而提高在实际在轨环境中的鲁棒性。

技术框架：IL-SRD框架主要包含三个部分：专家演示数据生成、模仿学习模型训练和控制策略执行。首先，通过仿真或其他方式生成专家演示数据，这些数据包含了航天器的状态信息和对应的控制指令。然后，使用Transformer模型作为模仿学习的核心，训练一个能够根据当前状态预测控制指令的策略网络。最后，将训练好的策略网络部署到航天器上，根据当前状态实时生成控制指令，实现交会对接控制。

关键创新：本文的关键创新在于提出了锚定解码器目标机制和时间聚合机制。锚定解码器目标机制通过将解码器查询置于与状态相关的锚点上，显式地约束控制生成过程，保证控制演化的物理一致性，并抑制不合理的动作偏差。时间聚合机制则通过对多个时间步的预测结果进行聚合，减轻了Transformer模型序列预测带来的误差累积，提高了控制的稳定性。

关键设计：在锚定解码器目标机制中，锚点的位置是根据航天器的状态信息计算得到的，例如位置、速度等。损失函数采用均方误差损失，用于衡量预测控制指令与专家演示数据之间的差异。时间聚合机制中，聚合的窗口大小是一个重要的参数，需要根据具体的任务进行调整。Transformer模型的网络结构包括编码器和解码器，编码器用于提取状态信息的特征，解码器用于生成控制指令。

🖼️ 关键图片

📊 实验亮点

仿真结果表明，所提出的IL-SRD框架能够实现精确和节能的无模型交会对接控制。在存在显著未知扰动的情况下，该框架仍然能够保持竞争力的性能，验证了其良好的鲁棒性。与传统的基于模型的控制方法相比，该方法在复杂环境下的表现更加出色，能够更好地适应实际在轨环境。

🎯 应用场景

该研究成果可应用于各种航天器交会对接任务，例如空间站补给、卫星维修、碎片清除等。通过减少对精确模型的依赖，提高在复杂环境下的鲁棒性，该方法有望降低交会对接任务的成本和风险，并为未来的深空探测任务提供技术支持。未来，该方法还可以扩展到其他航天器控制领域，例如姿态控制、轨道控制等。

📄 摘要（原文）

Existing spacecraft rendezvous and docking control methods largely rely on predefined dynamic models and often exhibit limited robustness in realistic on-orbit environments. To address this issue, this paper proposes an Imitation Learning-based spacecraft rendezvous and docking control framework (IL-SRD) that directly learns control policies from expert demonstrations, thereby reducing dependence on accurate modeling. We propose an anchored decoder target mechanism, which conditions the decoder queries on state-related anchors to explicitly constrain the control generation process. This mechanism enforces physically consistent control evolution and effectively suppresses implausible action deviations in sequential prediction, enabling reliable six-degree-of-freedom (6-DOF) rendezvous and docking control. To further enhance stability, a temporal aggregation mechanism is incorporated to mitigate error accumulation caused by the sequential prediction nature of Transformer-based models, where small inaccuracies at each time step can propagate and amplify over long horizons. Extensive simulation results demonstrate that the proposed IL-SRD framework achieves accurate and energy-efficient model-free rendezvous and docking control. Robustness evaluations further confirm its capability to maintain competitive performance under significant unknown disturbances. The source code is available at https://github.com/Dongzhou-1996/IL-SRD.

Imitation learning-based spacecraft rendezvous and docking method with Expert Demonstration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理