Crossing the Sim2Real Gap Between Simulation and Ground Testing to Space Deployment of Autonomous Free-flyer Control

作者: Kenneth Stewart, Samantha Chapin, Roxana Leontie, Carl Glen Henshaw

分类: cs.RO, cs.LG, eess.SY

发布日期: 2025-12-03

备注: published at iSpaRo 2025

💡 一句话要点

首次在国际空间站验证基于强化学习的自由飞行机器人自主控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 空间机器人 自主控制 Sim2Real 在轨服务

📋 核心要点

现有空间机器人的控制方法难以适应太空环境的动态变化和任务需求。
利用NVIDIA Omniverse和课程学习，训练深度神经网络替代传统控制，实现微重力环境下的自主导航。
成功将地面训练的强化学习策略部署到国际空间站的Astrobee机器人，验证了Sim2Real方法的可行性。

📝 摘要（中文）

本文展示了基于强化学习(RL)的自主控制在空间机器人领域的变革潜力，首次在国际空间站(ISS)的NASA Astrobee自由飞行机器人上进行了在轨演示。利用NVIDIA Omniverse物理模拟器和课程学习，我们训练了一个深度神经网络来替代Astrobee的标准姿态和位移控制，使其能够在微重力环境中导航。实验结果验证了一种新颖的训练流程，该流程弥合了仿真到现实(Sim2Real)的差距，利用GPU加速的科学级仿真环境进行高效的蒙特卡洛RL训练。此次成功部署证明了在地面训练RL策略并将其转移到空间应用的可行性，为在轨服务、组装和制造(ISAM)领域的未来工作铺平了道路，从而能够快速适应动态的任务需求。

🔬 方法详解

问题定义：论文旨在解决空间自由飞行机器人在微重力环境下自主控制的问题。现有方法通常依赖于精确的动力学模型和复杂的控制算法，难以适应太空环境的动态变化和任务需求，例如未知的扰动、传感器噪声和执行器不确定性。此外，在真实空间环境中进行训练和测试成本高昂且风险大。

核心思路：论文的核心思路是利用强化学习(RL)算法，通过在仿真环境中进行大量的训练，学习一个能够适应各种复杂环境的控制策略。通过精心设计的仿真环境和课程学习策略，弥合仿真环境和真实环境之间的差距(Sim2Real)，从而将训练好的策略直接部署到真实机器人上。

技术框架：整体框架包括三个主要部分：1) 基于NVIDIA Omniverse的物理仿真环境，用于生成大量的训练数据；2) 基于深度神经网络的强化学习算法，用于学习控制策略；3) 课程学习策略，用于逐步提高训练难度，加速学习过程并提高策略的泛化能力。具体流程为：首先在仿真环境中初始化机器人状态，然后使用RL算法控制机器人执行动作，根据环境反馈的奖励信号更新神经网络的参数，重复这个过程直到学习到一个最优的控制策略，最后将训练好的策略部署到真实机器人上。

关键创新：论文的关键创新在于成功地将强化学习应用到空间机器人的自主控制，并验证了Sim2Real方法在空间环境中的可行性。具体来说，论文提出了一种新颖的训练流程，该流程利用GPU加速的科学级仿真环境进行高效的蒙特卡洛RL训练，并结合课程学习策略来提高策略的鲁棒性和泛化能力。

关键设计：论文使用了深度神经网络作为强化学习的策略网络，网络的输入是机器人的状态信息（例如位置、姿态、速度等），输出是机器人的控制指令（例如推力、力矩等）。损失函数的设计目标是最大化机器人在仿真环境中获得的累积奖励。课程学习策略的设计目标是逐步提高训练难度，例如从简单的目标导航任务开始，逐步增加环境的复杂度和任务的难度。具体的参数设置和网络结构等技术细节在论文中没有详细描述，属于未知信息。

📊 实验亮点

该研究首次在国际空间站(ISS)的NASA Astrobee自由飞行机器人上进行了在轨演示，验证了基于强化学习的自主控制策略在空间环境中的可行性。实验结果表明，通过在地面仿真环境中训练的策略可以直接部署到真实机器人上，实现自主导航和控制。具体的性能数据和对比基线在论文中没有详细描述，属于未知信息。

🎯 应用场景

该研究成果可应用于在轨服务、组装和制造(ISAM)等领域，例如空间碎片清理、卫星维护、空间站建设等。通过强化学习训练的自主控制策略可以使空间机器人更加灵活、智能，能够快速适应动态的任务需求，降低任务成本和风险。未来，该技术还有望应用于深空探测等更复杂的空间任务。

📄 摘要（原文）

Reinforcement learning (RL) offers transformative potential for robotic control in space. We present the first on-orbit demonstration of RL-based autonomous control of a free-flying robot, the NASA Astrobee, aboard the International Space Station (ISS). Using NVIDIA's Omniverse physics simulator and curriculum learning, we trained a deep neural network to replace Astrobee's standard attitude and translation control, enabling it to navigate in microgravity. Our results validate a novel training pipeline that bridges the simulation-to-reality (Sim2Real) gap, utilizing a GPU-accelerated, scientific-grade simulation environment for efficient Monte Carlo RL training. This successful deployment demonstrates the feasibility of training RL policies terrestrially and transferring them to space-based applications. This paves the way for future work in In-Space Servicing, Assembly, and Manufacturing (ISAM), enabling rapid on-orbit adaptation to dynamic mission requirements.

Crossing the Sim2Real Gap Between Simulation and Ground Testing to Space Deployment of Autonomous Free-flyer Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册