Action Chunking with Transformers for Image-Based Spacecraft Guidance and Control

📄 arXiv: 2509.04628v1 📥 PDF

作者: Alejandro Posadas-Nava, Andrea Scorsoglio, Luca Ghilardi, Roberto Furfaro, Richard Linares

分类: cs.RO, cs.AI

发布日期: 2025-09-04

备注: 12 pages, 6 figures, 2025 AAS/AIAA Astrodynamics Specialist Conference


💡 一句话要点

提出基于Transformer的动作分块方法ACT,用于图像化航天器制导与控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 航天器制导 导航与控制 模仿学习 Transformer 动作分块 交会对接 视觉控制

📋 核心要点

  1. 现有航天器GNC方法通常需要大量数据进行训练,样本效率低,难以适应实际应用中数据稀缺的场景。
  2. 论文提出基于Transformer的动作分块(ACT)方法,通过模仿学习专家策略,学习视觉和状态观测到控制指令的映射。
  3. 实验表明,ACT仅需少量专家演示即可实现高性能,在交会对接任务中,精度更高,控制更平滑,样本效率更高。

📝 摘要(中文)

本文提出了一种基于模仿学习的航天器制导、导航与控制(GNC)方法,该方法仅需少量数据即可实现高性能。我们的方法,即基于Transformer的动作分块(ACT),仅使用100个专家演示(相当于6300次环境交互),就能学习到一个控制策略,将视觉和状态观测映射到推力和扭矩指令。与经过4000万次交互训练的元强化学习(meta-RL)基线相比,ACT生成了更平滑、更一致的轨迹。我们在交会对接任务(与国际空间站(ISS)进行在轨对接)中评估了ACT。结果表明,我们的方法实现了更高的精度、更平滑的控制和更高的样本效率。

🔬 方法详解

问题定义:论文旨在解决航天器制导、导航与控制(GNC)中,利用视觉信息进行精确控制的问题。现有方法,特别是基于强化学习的方法,通常需要大量的训练数据,这在航天领域是难以满足的。此外,传统方法在处理复杂环境和动态变化时,鲁棒性可能不足。

核心思路:论文的核心思路是利用模仿学习,通过学习少量专家演示数据,训练一个能够将视觉和状态观测映射到控制指令的策略。关键在于使用Transformer架构进行动作分块(Action Chunking),从而学习到更长程的依赖关系,生成更平滑的控制轨迹。

技术框架:整体框架包括以下几个主要部分:1) 环境模拟器,用于生成航天器在轨运行的模拟数据;2) 专家策略,用于生成高质量的演示数据;3) 基于Transformer的动作分块(ACT)模型,用于学习专家策略;4) 控制器,将ACT模型的输出转化为实际的推力和扭矩指令。ACT模型接收视觉和状态观测作为输入,输出一系列动作块,每个动作块包含一段时间内的控制指令。

关键创新:最重要的技术创新点在于使用Transformer架构进行动作分块。与传统的基于RNN或MLP的控制策略相比,Transformer能够更好地捕捉长程依赖关系,从而生成更平滑、更一致的控制轨迹。动作分块允许模型一次性预测多个时间步的控制指令,从而提高控制的连贯性。

关键设计:ACT模型使用标准的Transformer编码器-解码器结构。编码器接收视觉和状态观测作为输入,解码器生成动作块序列。损失函数采用均方误差(MSE),用于衡量预测的控制指令与专家演示之间的差异。训练过程中,使用Adam优化器进行参数更新。动作块的长度是一个关键参数,需要根据具体的任务进行调整。

📊 实验亮点

实验结果表明,ACT方法仅使用100个专家演示(相当于6300次环境交互),就能在交会对接任务中实现高性能。与经过4000万次交互训练的元强化学习(meta-RL)基线相比,ACT生成了更平滑、更一致的轨迹,精度更高,样本效率更高。这表明ACT方法在数据稀缺的情况下具有显著优势。

🎯 应用场景

该研究成果可应用于各种航天器GNC任务,例如卫星编队飞行、空间碎片清除、行星探测等。通过模仿学习,可以快速部署控制策略,降低开发成本。此外,该方法还可以扩展到其他需要高精度控制的机器人应用领域,例如自动驾驶、工业机器人等。

📄 摘要(原文)

We present an imitation learning approach for spacecraft guidance, navigation, and control(GNC) that achieves high performance from limited data. Using only 100 expert demonstrations, equivalent to 6,300 environment interactions, our method, which implements Action Chunking with Transformers (ACT), learns a control policy that maps visual and state observations to thrust and torque commands. ACT generates smoother, more consistent trajectories than a meta-reinforcement learning (meta-RL) baseline trained with 40 million interactions. We evaluate ACT on a rendezvous task: in-orbit docking with the International Space Station (ISS). We show that our approach achieves greater accuracy, smoother control, and greater sample efficiency.