Prior Policy Guided Dual-Agent Coordinated Manipulation Planning of Spacecraft-Manipulator System
作者: Yuhui Hu, Dong Zhou, Kaihong Ouyang, Zhongliang Yu, Jianfeng Lv, Xiangyu Shao
分类: cs.RO
发布日期: 2026-05-25
备注: 36 pages, 13 figures, 6 tables. Under review
🔗 代码/项目: GITHUB
💡 一句话要点
提出先验策略引导的双智能体协同操作规划框架,解决航天器-机械臂系统姿态稳定控制问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 航天器-机械臂系统 协同操作规划 深度强化学习 先验策略引导 双智能体 姿态控制 空间机器人
📋 核心要点
- 航天器-机械臂系统存在强烈的动态耦合,对航天器姿态稳定构成挑战,可能危及任务安全。
- 提出双智能体协同操作规划(DACMP)框架,利用先验策略引导的深度强化学习算法,实现机械臂高精度操作和航天器姿态稳定。
- 实验结果表明,DACMP在任务成功率和控制精度上优于基线DRL算法,并在复杂场景下验证了其鲁棒性。
📝 摘要(中文)
本文提出了一种双智能体协同操作规划(DACMP)框架,旨在同时实现6自由度空间机械臂的高精度末端执行器姿态到达和基座航天器的姿态稳定。针对学习效率问题,提出了一种结合时间步专家切换引导(TESG)机制的先验策略引导深度强化学习算法,从而促进全局收敛并提高任务成功率。大量实验表明,DACMP在任务成功率和控制精度方面显著优于基线DRL算法。此外,DACMP的鲁棒性在各种具有挑战性的场景下得到了验证,包括系统约束、环境扰动和感知不确定性。
🔬 方法详解
问题定义:论文旨在解决航天器-机械臂系统协同操作规划问题,即如何在机械臂执行任务的同时,保证航天器基座的姿态稳定。现有方法难以处理机械臂和航天器之间的强耦合动态,导致姿态控制精度不足,甚至任务失败。
核心思路:论文的核心思路是将航天器-机械臂系统建模为双智能体系统,分别控制机械臂的末端执行器姿态和航天器的姿态。通过深度强化学习算法,学习两个智能体之间的协同策略,从而实现高精度的操作和稳定的姿态控制。引入先验策略引导,加速学习过程,提高收敛性。
技术框架:DACMP框架包含两个智能体:机械臂智能体和航天器智能体。机械臂智能体负责控制机械臂的关节力矩,以实现末端执行器的目标姿态。航天器智能体负责控制航天器的姿态,以保持稳定。两个智能体通过共享状态信息和奖励函数进行协同学习。框架还包含一个时间步专家切换引导(TESG)机制,根据当前状态选择合适的专家策略进行引导。
关键创新:论文的关键创新在于提出了先验策略引导的深度强化学习算法,并结合了时间步专家切换引导(TESG)机制。先验策略可以提供初始的策略指导,加速学习过程。TESG机制可以根据当前状态选择合适的专家策略,提高学习效率和任务成功率。
关键设计:论文使用了Actor-Critic框架的深度强化学习算法。Actor网络用于生成动作,Critic网络用于评估动作的价值。奖励函数的设计考虑了末端执行器的姿态误差和航天器的姿态误差。TESG机制通过一个分类器来选择合适的专家策略。分类器的输入是当前状态,输出是专家策略的索引。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DACMP在任务成功率和控制精度方面显著优于基线DRL算法。在任务成功率方面,DACMP比表现最好的基线算法提高了约15%。在控制精度方面,DACMP的末端执行器姿态误差和航天器姿态误差均显著降低。此外,DACMP在各种具有挑战性的场景下表现出良好的鲁棒性。
🎯 应用场景
该研究成果可应用于空间在轨服务、空间碎片清除、空间站维护等领域。通过精确控制机械臂和稳定航天器姿态,可以提高任务效率和安全性,降低任务风险。未来,该方法有望推广到其他复杂机器人系统的协同控制问题。
📄 摘要(原文)
The strong dynamic coupling between the manipulator and the base poses a significant challenge to maintaining spacecraft attitude stability, potentially compromising mission safety. In this paper, we propose a Dual-Agent Coordinated Manipulation Planning (DACMP) framework that simultaneously achieves high-precision end-effector pose reaching for a 6-DoF space manipulator and attitude stabilization of the base spacecraft. To enhance learning efficiency, we present a prior policy-guided Deep Reinforcement Learning algorithm incorporating the Timestep-level Expert Switching Guidance (TESG) mechanism, thereby promoting global convergence and improving task success rates. Extensive experiments demonstrate that DACMP significantly outperforms baseline DRL algorithms in terms of task success rate and control precision. Furthermore, the robustness of DACMP is validated under various challenging scenarios, including system constraints, environmental disturbances, and perception uncertainties. The code and simulation configurations are available on GitHub: https://github.com/HIT-YuhuiHu/DACMP.