RL-AVIST: Reinforcement Learning for Autonomous Visual Inspection of Space Targets
作者: Matteo El-Hariry, Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez
分类: cs.RO
发布日期: 2025-10-26
💡 一句话要点
提出RL-AVIST框架,用于空间目标自主视觉检测的强化学习方法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 空间机器人 自主视觉检测 在轨服务 DreamerV3 航天器控制 轨迹规划
📋 核心要点
- 传统航天器控制系统在模型不确定和任务动态变化时适应性不足,难以满足日益增长的在轨服务需求。
- RL-AVIST框架利用强化学习,通过学习复杂机动策略,使航天器能够自主进行空间目标的视觉检测。
- 实验表明,基于模型的强化学习在轨迹精度和样本效率方面表现出色,为空间操作控制提供了新途径。
📝 摘要(中文)
本文提出了一种用于空间目标自主视觉检测的强化学习框架RL-AVIST。随着对在轨服务(如检测、维护和态势感知)需求的增长,需要智能航天器能够围绕大型轨道目标进行复杂机动。传统控制系统在适应性方面存在不足,尤其是在模型不确定性、多航天器配置或动态演变的任务环境中。该框架利用空间机器人平台(SRB)模拟高保真6自由度航天器动力学,并使用DreamerV3(一种先进的基于模型的强化学习算法)以及PPO和TD3(作为无模型基线)训练智能体。研究重点是围绕月球门户等目标进行三维邻近机动任务。评估了两种互补方案下的任务性能:在随机速度向量上训练的通用智能体,以及训练用于遵循模拟已知检测轨道固定轨迹的专用智能体。此外,还评估了策略在多种航天器形态和任务领域中的鲁棒性和泛化性。结果表明,基于模型的强化学习在轨迹保真度和样本效率方面具有良好的能力,为未来空间操作的可扩展、可重训练的控制解决方案铺平了道路。
🔬 方法详解
问题定义:现有航天器在轨视觉检测任务通常依赖于传统控制方法,这些方法在面对模型不确定性、多航天器协同以及动态变化的任务环境时,适应性较差。尤其是在复杂空间环境中,精确控制航天器进行目标周围的机动,以获取高质量的视觉数据,是一个极具挑战性的问题。现有方法难以实现自主、高效且鲁棒的视觉检测。
核心思路:本文的核心思路是利用强化学习(RL)来训练航天器自主执行视觉检测任务。通过让智能体(航天器)在模拟环境中与环境交互,学习最优的控制策略,从而实现自主导航和目标检测。采用基于模型的强化学习算法DreamerV3,旨在提高样本效率和泛化能力,克服传统控制方法的局限性。
技术框架:RL-AVIST框架主要包含以下几个关键模块:1) 空间机器人平台(SRB):用于构建高保真6自由度航天器动力学仿真环境。2) 强化学习智能体:使用DreamerV3算法进行训练,PPO和TD3作为基线算法进行对比。3) 奖励函数设计:根据视觉检测任务的需求,设计合适的奖励函数,引导智能体学习期望的行为。4) 策略评估与部署:评估训练好的策略在不同场景下的性能,并进行部署。
关键创新:本文的关键创新在于将基于模型的强化学习算法DreamerV3应用于空间目标的自主视觉检测任务。与传统的无模型强化学习算法相比,DreamerV3能够通过学习环境模型来提高样本效率和泛化能力。此外,该框架还考虑了多种航天器形态和任务领域,增强了策略的鲁棒性和适应性。
关键设计:在奖励函数设计方面,需要平衡轨迹精度、燃料消耗和目标可见性等多个因素。DreamerV3算法中的环境模型采用变分自编码器(VAE)进行学习,并通过潜在状态空间进行规划。此外,还采用了随机速度向量和固定轨迹两种训练方式,以评估策略的泛化能力和专用性。网络结构和超参数的选择需要根据具体的任务和环境进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于模型的强化学习算法DreamerV3在轨迹保真度和样本效率方面优于无模型算法PPO和TD3。在随机速度向量训练的通用智能体和固定轨迹训练的专用智能体中,DreamerV3均表现出更好的性能。此外,该框架在多种航天器形态和任务领域中展现出良好的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于多种空间任务,包括在轨服务(如航天器检测、维护和维修)、空间碎片清除、行星探测和空间态势感知等。通过自主视觉检测,可以降低对地面控制的依赖,提高任务效率和安全性,并为未来的深空探索提供技术支持。
📄 摘要(原文)
The growing need for autonomous on-orbit services such as inspection, maintenance, and situational awareness calls for intelligent spacecraft capable of complex maneuvers around large orbital targets. Traditional control systems often fall short in adaptability, especially under model uncertainties, multi-spacecraft configurations, or dynamically evolving mission contexts. This paper introduces RL-AVIST, a Reinforcement Learning framework for Autonomous Visual Inspection of Space Targets. Leveraging the Space Robotics Bench (SRB), we simulate high-fidelity 6-DOF spacecraft dynamics and train agents using DreamerV3, a state-of-the-art model-based RL algorithm, with PPO and TD3 as model-free baselines. Our investigation focuses on 3D proximity maneuvering tasks around targets such as the Lunar Gateway and other space assets. We evaluate task performance under two complementary regimes: generalized agents trained on randomized velocity vectors, and specialized agents trained to follow fixed trajectories emulating known inspection orbits. Furthermore, we assess the robustness and generalization of policies across multiple spacecraft morphologies and mission domains. Results demonstrate that model-based RL offers promising capabilities in trajectory fidelity, and sample efficiency, paving the way for scalable, retrainable control solutions for future space operations