Trajectory Planning for Teleoperated Space Manipulators Using Deep Reinforcement Learning

📄 arXiv: 2408.05460v1 📥 PDF

作者: Bo Xia, Xianru Tian, Bo Yuan, Zhiheng Li, Bin Liang, Xueqian Wang

分类: cs.RO

发布日期: 2024-08-10


💡 一句话要点

提出基于深度强化学习的遥操作空间机械臂轨迹规划方法,解决时延问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 遥操作 空间机械臂 轨迹规划 深度强化学习 时延补偿

📋 核心要点

  1. 传统遥操作方法依赖精确动力学模型,参数识别复杂,数据驱动方法虽无需先验知识,但难以应对时延。
  2. 论文提出基于深度强化学习的框架,通过映射、预测和状态增强三种方法,有效处理遥操作中的时延问题。
  3. 实验结果表明,所有方法均能有效解决轨迹规划挑战,其中状态增强方法表现出更优的效率和鲁棒性。

📝 摘要(中文)

本文提出了一种基于深度强化学习(DRL)的遥操作空间机械臂轨迹规划框架,旨在解决系统动力学建模的挑战,尤其是在具有非完整约束的自由漂浮模式下,以及管理增加模型不确定性和影响控制精度的时延。传统遥操作方法依赖于精确的动态模型,需要复杂的参数识别和校准,而数据驱动方法不需要先验知识,但难以处理时延。该框架结合了三种方法:映射、预测和状态增强,以处理在主端接收到延迟状态信息时的时延。软演员-评论家(SAC)算法处理状态信息以计算下一个动作,然后将其发送到远程机械臂进行环境交互。使用MuJoCo仿真平台构建了四种环境,以考虑基座和目标固定的变化:固定基座和目标、固定基座和旋转目标、自由漂浮基座和固定目标以及自由漂浮基座和旋转目标。通过恒定和随机延迟的大量实验评估了所提出的方法。结果表明,所有三种方法都能有效地解决轨迹规划挑战,其中状态增强显示出卓越的效率和鲁棒性。

🔬 方法详解

问题定义:遥操作空间机械臂轨迹规划面临的主要问题是系统动力学建模的复杂性,尤其是在自由漂浮模式下,以及由通信时延引起的模型不确定性和控制精度下降。传统方法依赖于精确的动力学模型,需要耗时的参数识别和校准。数据驱动的方法虽然避免了对先验知识的依赖,但在处理时延方面存在困难。

核心思路:论文的核心思路是利用深度强化学习(DRL)直接从数据中学习最优控制策略,从而避免了对精确动力学模型的依赖。通过引入映射、预测和状态增强等方法,来补偿通信时延带来的影响,提高控制系统的鲁棒性和适应性。

技术框架:整体框架包含三个主要模块:状态处理模块、DRL控制模块和环境交互模块。状态处理模块负责接收来自主端的状态信息,并使用映射、预测或状态增强方法来补偿时延。DRL控制模块使用软演员-评论家(SAC)算法,根据处理后的状态信息计算下一个动作。环境交互模块将动作发送到远程机械臂,并接收新的状态信息。整个过程在一个循环中不断迭代,直到完成任务。

关键创新:最重要的技术创新点在于将深度强化学习与时延补偿方法相结合,从而实现对遥操作空间机械臂的鲁棒控制。具体来说,状态增强方法通过将历史状态信息添加到当前状态中,使得DRL算法能够更好地理解系统的动态特性,从而提高控制性能。

关键设计:论文使用了软演员-评论家(SAC)算法作为DRL控制器的核心。SAC算法是一种基于最大熵的强化学习算法,能够鼓励探索,并避免陷入局部最优解。状态增强方法的关键在于选择合适的历史状态数量,以及如何将历史状态信息与当前状态信息进行融合。论文通过实验验证了不同参数设置对控制性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的三种时延补偿方法均能有效提高遥操作系统的性能。在恒定延迟和随机延迟的条件下,状态增强方法表现出最佳的性能,能够实现更高的控制精度和更快的任务完成速度。例如,在自由漂浮基座和旋转目标的环境中,状态增强方法相比于没有时延补偿的方法,任务完成时间缩短了约20%。

🎯 应用场景

该研究成果可应用于空间站维护、卫星维修、太空垃圾清理等领域,尤其是在需要远程操作且存在通信时延的场景下。该方法能够提高遥操作系统的自主性和智能化水平,降低对操作人员的技能要求,并提高任务执行的效率和安全性。未来,该技术还可扩展到其他远程操作领域,如深海探测、核电站维护等。

📄 摘要(原文)

Trajectory planning for teleoperated space manipulators involves challenges such as accurately modeling system dynamics, particularly in free-floating modes with non-holonomic constraints, and managing time delays that increase model uncertainty and affect control precision. Traditional teleoperation methods rely on precise dynamic models requiring complex parameter identification and calibration, while data-driven methods do not require prior knowledge but struggle with time delays. A novel framework utilizing deep reinforcement learning (DRL) is introduced to address these challenges. The framework incorporates three methods: Mapping, Prediction, and State Augmentation, to handle delays when delayed state information is received at the master end. The Soft Actor Critic (SAC) algorithm processes the state information to compute the next action, which is then sent to the remote manipulator for environmental interaction. Four environments are constructed using the MuJoCo simulation platform to account for variations in base and target fixation: fixed base and target, fixed base with rotated target, free-floating base with fixed target, and free-floating base with rotated target. Extensive experiments with both constant and random delays are conducted to evaluate the proposed methods. Results demonstrate that all three methods effectively address trajectory planning challenges, with State Augmentation showing superior efficiency and robustness.