Safe Obstacle-Free Guidance of Space Manipulators in Debris Removal Missions via Deep Reinforcement Learning

作者: Vincent Lam, Robin Chhabra

分类: cs.RO

发布日期: 2025-10-08

💡 一句话要点

提出基于TD3的深度强化学习方法，用于空间机械臂安全无碰撞的轨迹规划，助力碎片移除任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 空间机械臂 碎片移除 深度强化学习 TD3算法 轨迹规划

📋 核心要点

现有空间机械臂在碎片移除任务中面临轨迹规划挑战，尤其是在避碰和精确跟踪方面。
论文提出基于TD3的深度强化学习方法，结合多评论家网络和优先经验回放，实现安全轨迹规划。
在Matlab/Simulink环境中，七自由度KUKA LBR iiwa机械臂的仿真结果验证了该框架的有效性。

📝 摘要（中文）

本研究旨在开发一种用于空间机械臂的无模型工作空间轨迹规划器，该规划器使用双延迟深度确定性策略梯度（TD3）智能体，以实现安全可靠的碎片捕获。采用具有奇异性避免和可操作性增强的局部控制策略，以确保稳定执行。机械臂必须同时跟踪非合作目标上的捕获点，避免自碰撞，并防止与目标发生意外接触。为了应对这些挑战，我们提出了一种基于课程的多评论家网络，其中一个评论家强调精确跟踪，另一个评论家强制执行避碰。还使用优先经验回放缓冲区来加速收敛并提高策略鲁棒性。该框架在Matlab/Simulink中模拟的安装在自由浮动基座上的七自由度KUKA LBR iiwa上进行了评估，展示了用于碎片移除任务的安全且自适应的轨迹生成。

🔬 方法详解

问题定义：空间碎片移除任务中，机械臂需要精确跟踪非合作目标上的捕获点，同时避免自碰撞和与目标的意外接触。传统方法在处理复杂环境和动态变化时，难以保证安全性和鲁棒性，且常常需要精确的动力学模型。

核心思路：利用深度强化学习的无模型特性，通过TD3算法训练智能体，使其能够自主学习安全且高效的轨迹规划策略。通过多评论家网络分别评估跟踪精度和避碰效果，并使用优先经验回放加速学习过程，提高策略的鲁棒性。

技术框架：该框架包含三个主要部分：环境模拟器（Matlab/Simulink中的KUKA LBR iiwa机械臂模型）、TD3智能体和局部控制器。TD3智能体根据环境状态输出机械臂的关节速度指令，局部控制器执行这些指令，同时进行奇异性避免和可操作性增强，确保机械臂运动的平稳性。环境模拟器提供状态反馈和奖励信号，用于训练TD3智能体。

关键创新：该方法的核心创新在于使用多评论家网络，分别关注跟踪精度和避碰。这种设计允许智能体在学习过程中同时优化这两个目标，避免了单一奖励函数可能导致的局部最优解。此外，优先经验回放机制能够更有效地利用有价值的经验，加速学习过程。

关键设计：TD3智能体的网络结构包括Actor网络和两个Critic网络。Actor网络输出确定性的动作（关节速度指令），Critic网络评估Actor网络输出的动作的价值。奖励函数的设计至关重要，需要平衡跟踪精度、避碰和运动平滑性。优先经验回放缓冲区根据经验的重要性进行采样，更有利于学习到关键的策略。

🖼️ 关键图片

📊 实验亮点

该研究在Matlab/Simulink环境中对七自由度KUKA LBR iiwa机械臂进行了仿真实验，验证了所提出框架的有效性。实验结果表明，该方法能够生成安全且自适应的轨迹，成功避免了自碰撞和与目标的意外接触，同时实现了对目标捕获点的精确跟踪。通过优先经验回放，加速了学习过程，提高了策略的鲁棒性。

🎯 应用场景

该研究成果可应用于空间碎片移除、卫星在轨服务、空间站维护等领域。通过深度强化学习，机械臂能够自主适应复杂多变的空间环境，安全可靠地完成目标任务，降低任务风险和成本，提高空间任务的效率和智能化水平。未来可进一步扩展到其他类型的空间机器人和任务场景。

📄 摘要（原文）

The objective of this study is to develop a model-free workspace trajectory planner for space manipulators using a Twin Delayed Deep Deterministic Policy Gradient (TD3) agent to enable safe and reliable debris capture. A local control strategy with singularity avoidance and manipulability enhancement is employed to ensure stable execution. The manipulator must simultaneously track a capture point on a non-cooperative target, avoid self-collisions, and prevent unintended contact with the target. To address these challenges, we propose a curriculum-based multi-critic network where one critic emphasizes accurate tracking and the other enforces collision avoidance. A prioritized experience replay buffer is also used to accelerate convergence and improve policy robustness. The framework is evaluated on a simulated seven-degree-of-freedom KUKA LBR iiwa mounted on a free-floating base in Matlab/Simulink, demonstrating safe and adaptive trajectory generation for debris removal missions.

Safe Obstacle-Free Guidance of Space Manipulators in Debris Removal Missions via Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理