Reinforcement Learning based 6-DoF Maneuvers for Microgravity Intravehicular Docking: A Simulation Study with Int-Ball2 in ISS-JEM

📄 arXiv: 2512.13514v1 📥 PDF

作者: Aman Arora, Matteo El-Hariry, Miguel Olivares-Mendez

分类: cs.RO

发布日期: 2025-12-15

备注: Presented at AI4OPA Workshop at the International Conference on Space Robotics (iSpaRo) 2025 at Sendai, Japan


💡 一句话要点

提出基于强化学习的6自由度微重力舱内对接方法,用于国际空间站Int-Ball2机器人。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 机器人对接 微重力环境 Int-Ball2 近端策略优化 领域随机化 Isaac Sim

📋 核心要点

  1. 舱内自由飞行器在国际空间站任务中至关重要,但在传感噪声、执行器不匹配和环境变化下的精确对接仍具挑战。
  2. 论文提出基于近端策略优化(PPO)的强化学习框架,在领域随机化和噪声环境下训练Int-Ball2的6自由度对接控制器。
  3. 实验表明,该方法在各种条件下实现了稳定可靠的对接,为后续研究如避碰导航和sim-to-real迁移奠定基础。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)的框架,用于日本宇宙航空研究开发机构(JAXA)的Int-Ball2机器人在日本实验舱(JEM)的高保真Isaac Sim模型中进行六自由度(6-DoF)对接。使用近端策略优化(PPO)算法,在领域随机化的动力学和有界观测噪声下训练和评估控制器,同时显式地建模了螺旋桨的阻力扭矩效应和极性结构。这使得能够对Int-Ball2的推进物理特性如何影响基于RL的对接性能进行受控研究。学习到的策略在各种条件下实现了稳定可靠的对接,并为未来在避碰导航、安全RL、推进精确的sim-to-real迁移以及基于视觉的端到端对接方面的扩展奠定了基础。

🔬 方法详解

问题定义:论文旨在解决微重力环境下,舱内自由飞行机器人(如Int-Ball2)的自主对接问题。现有方法在面对传感噪声、执行器不匹配以及环境变化时,难以保证对接的稳定性和可靠性。特别是,精确建模推进系统的物理特性(如螺旋桨阻力扭矩)对提高仿真到实际的迁移能力至关重要。

核心思路:论文的核心思路是利用强化学习(RL)训练一个能够适应各种不确定性因素的对接控制器。通过领域随机化,使智能体在训练过程中接触到各种不同的环境参数,从而提高其泛化能力。同时,显式建模螺旋桨的阻力扭矩效应,使得仿真环境更接近真实情况。

技术框架:整体框架包括一个高保真的Isaac Sim仿真环境,其中包含Int-Ball2机器人和日本实验舱(JEM)的模型。使用近端策略优化(PPO)算法训练RL智能体。智能体接收来自仿真环境的观测信息(如位置、姿态、速度等),并输出控制指令(如螺旋桨推力)。通过奖励函数引导智能体学习对接行为。

关键创新:论文的关键创新在于将强化学习应用于微重力环境下的机器人对接,并显式地建模了螺旋桨的阻力扭矩效应和极性结构。这使得训练出的控制器能够更好地适应真实环境中的各种不确定性因素,提高了对接的稳定性和可靠性。

关键设计:论文使用了近端策略优化(PPO)算法,这是一种常用的策略梯度方法,具有较好的稳定性和收敛性。领域随机化策略被用于增强模型的泛化能力,包括随机化机器人质量、惯性矩、螺旋桨推力等参数。奖励函数的设计旨在引导智能体快速、准确地完成对接任务,包括接近目标、减小速度、保持姿态等多个方面。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过在Isaac Sim中进行仿真实验,验证了所提出的强化学习方法的有效性。实验结果表明,该方法能够在领域随机化的动力学和有界观测噪声下,实现稳定可靠的对接。具体性能数据未知,但论文强调了该方法在各种条件下的鲁棒性,并为后续的sim-to-real迁移奠定了基础。

🎯 应用场景

该研究成果可应用于国际空间站等微重力环境下的舱内自主操作任务,例如物资运输、设备维护和科学实验辅助。通过提高自由飞行机器人的自主对接能力,可以减轻宇航员的工作负担,提高任务效率和安全性。未来,该技术还可扩展到其他空间机器人应用,如卫星在轨服务和行星探测。

📄 摘要(原文)

Autonomous free-flyers play a critical role in intravehicular tasks aboard the International Space Station (ISS), where their precise docking under sensing noise, small actuation mismatches, and environmental variability remains a nontrivial challenge. This work presents a reinforcement learning (RL) framework for six-degree-of-freedom (6-DoF) docking of JAXA's Int-Ball2 robot inside a high-fidelity Isaac Sim model of the Japanese Experiment Module (JEM). Using Proximal Policy Optimization (PPO), we train and evaluate controllers under domain-randomized dynamics and bounded observation noise, while explicitly modeling propeller drag-torque effects and polarity structure. This enables a controlled study of how Int-Ball2's propulsion physics influence RL-based docking performance in constrained microgravity interiors. The learned policy achieves stable and reliable docking across varied conditions and lays the groundwork for future extensions pertaining to Int-Ball2 in collision-aware navigation, safe RL, propulsion-accurate sim-to-real transfer, and vision-based end-to-end docking.