Path Planning and Reinforcement Learning-Driven Control of On-Orbit Free-Flying Multi-Arm Robots

作者: Álvaro Belmonte-Baeza, José Luis Ramón, Leonard Felicetti, Miguel Cazorla, Jorge Pomares

分类: cs.RO, eess.SY

发布日期: 2026-03-24

备注: Accepted for publication in The International Journal of Robotics Research (23-Mar-2026)

💡 一句话要点

提出轨迹优化与强化学习混合方法，用于在轨自由飞行多臂机器人的运动规划与控制。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 在轨服务 多臂机器人 轨迹优化 强化学习 运动规划 机器人控制 空间机器人

📋 核心要点

在轨服务机器人面临运动耦合、环境扰动等挑战，传统方法难以兼顾精确规划和动态适应性。
提出轨迹优化与强化学习相结合的混合方法，利用轨迹优化生成高效路径，强化学习实现自适应轨迹跟踪。
仿真结果表明，该混合方法在表面运动和自由漂浮场景中均优于传统策略，提升了运动平滑性、安全性和效率。

📝 摘要（中文）

本文提出了一种混合方法，该方法集成了轨迹优化（TO）和强化学习（RL），用于在轨服务场景中自由飞行多臂机器人的运动规划和控制。该系统整合了TO，用于生成可行、高效的路径，同时考虑了动力学和运动学约束；并整合了RL，用于在不确定性下进行自适应轨迹跟踪。多臂机器人设计配备了推进器，用于精确的姿态控制，从而在复杂的空间操作中实现冗余和稳定性。TO优化了手臂运动和推进器推力，减少了对手臂稳定性的依赖，并提高了机动性。RL通过利用无模型控制来适应动态交互和扰动，进一步完善了这一点。全面的仿真验证了所提出的混合方法的有效性和鲁棒性。研究了两个案例：具有初始接触的表面运动和需要表面逼近的自由漂浮场景。在这两种情况下，混合方法都优于传统策略。特别是，推进器显著提高了运动的平滑性、安全性和操作效率。RL策略有效地跟踪了TO生成的轨迹，处理了高维动作空间和动态失配。TO和RL的这种集成结合了精确的、特定于任务的规划的优势和强大的适应性，确保了空间环境不确定和动态条件下的高性能。通过解决运动耦合、环境扰动和动态控制要求等挑战，该框架为提高空间机器人系统的自主性和有效性奠定了坚实的基础。

🔬 方法详解

问题定义：论文旨在解决在轨自由飞行多臂机器人在复杂空间环境中运动规划与控制问题。现有方法，如纯轨迹优化，难以应对环境扰动和动态不确定性；而传统的强化学习方法在高维动作空间和复杂动力学模型下训练困难。因此，需要一种既能进行精确规划，又能适应动态变化的控制策略。

核心思路：论文的核心思路是将轨迹优化（TO）和强化学习（RL）相结合，形成一个混合控制框架。轨迹优化负责生成初始的、满足动力学和运动学约束的运动轨迹，而强化学习则负责在实际执行过程中，根据环境反馈和动态变化，对轨迹进行自适应调整和优化。这样既能保证任务的精确性，又能提高系统的鲁棒性和适应性。

技术框架：该混合控制框架主要包含两个模块：轨迹优化模块和强化学习控制模块。轨迹优化模块利用优化算法，根据任务目标和约束条件，生成初始的运动轨迹和推进器控制策略。强化学习控制模块则基于无模型强化学习算法，通过与环境的交互学习，不断优化控制策略，以实现对轨迹的精确跟踪和动态调整。整个流程是：首先，轨迹优化模块生成参考轨迹；然后，强化学习控制模块根据当前状态和参考轨迹，输出控制指令；最后，机器人执行控制指令，并获得环境反馈，用于强化学习的训练。

关键创新：该论文的关键创新在于将轨迹优化和强化学习有机结合，充分发挥两者的优势。轨迹优化提供了一个良好的初始解，降低了强化学习的探索难度；而强化学习则弥补了轨迹优化在动态环境下的不足，提高了系统的鲁棒性和适应性。此外，论文还针对多臂机器人的特点，设计了合适的奖励函数和状态空间，使得强化学习能够有效地学习到控制策略。

关键设计：在轨迹优化方面，论文采用了基于优化的运动规划方法，考虑了动力学约束、运动学约束和碰撞避免约束。在强化学习方面，论文采用了Actor-Critic算法，其中Actor网络负责输出控制指令，Critic网络负责评估当前状态的价值。奖励函数的设计考虑了轨迹跟踪误差、控制能量消耗和稳定性等因素。状态空间包括机器人的关节角度、角速度、位置和姿态等信息。

🖼️ 关键图片

📊 实验亮点

仿真实验表明，该混合方法在表面运动和自由漂浮场景中均优于传统策略。与单独使用轨迹优化相比，该方法能够更好地应对环境扰动和动态变化，显著提高了运动的平滑性、安全性和操作效率。推进器的使用也显著提升了机器人的机动性和稳定性。强化学习策略能够有效地跟踪轨迹优化生成的轨迹，并处理高维动作空间和动态失配问题。

🎯 应用场景

该研究成果可应用于在轨服务、空间碎片清理、空间站维护等领域。通过提高空间机器人的自主性和适应性，可以降低空间任务的成本和风险，并拓展空间探索的范围。未来，该技术还可应用于其他复杂动态环境下的机器人控制，如水下机器人、无人驾驶车辆等。

📄 摘要（原文）

This paper presents a hybrid approach that integrates trajectory optimization (TO) and reinforcement learning (RL) for motion planning and control of free-flying multi-arm robots in on-orbit servicing scenarios. The proposed system integrates TO for generating feasible, efficient paths while accounting for dynamic and kinematic constraints, and RL for adaptive trajectory tracking under uncertainties. The multi-arm robot design, equipped with thrusters for precise body control, enables redundancy and stability in complex space operations. TO optimizes arm motions and thruster forces, reducing reliance on the arms for stabilization and enhancing maneuverability. RL further refines this by leveraging model-free control to adapt to dynamic interactions and disturbances. The experimental results validated through comprehensive simulations demonstrate the effectiveness and robustness of the proposed hybrid approach. Two case studies are explored: surface motion with initial contact and a free-floating scenario requiring surface approximation. In both cases, the hybrid method outperforms traditional strategies. In particular, the thrusters notably enhance motion smoothness, safety, and operational efficiency. The RL policy effectively tracks TO-generated trajectories, handling high-dimensional action spaces and dynamic mismatches. This integration of TO and RL combines the strengths of precise, task-specific planning with robust adaptability, ensuring high performance in the uncertain and dynamic conditions characteristic of space environments. By addressing challenges such as motion coupling, environmental disturbances, and dynamic control requirements, this framework establishes a strong foundation for advancing the autonomy and effectiveness of space robotic systems.

Path Planning and Reinforcement Learning-Driven Control of On-Orbit Free-Flying Multi-Arm Robots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理