Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion

📄 arXiv: 2605.11697v1 📥 PDF

作者: Hassen Nigatu, Gaokun Shi, Jituo Li, Wang Jin, Lu Guodong

分类: cs.RO

发布日期: 2026-05-12

备注: 10 pages


💡 一句话要点

提出一种结合运动学感知的Rainbow DQN,用于Delta和3-RRS并联机器人协同装配

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 并联机器人 协同操作 运动学优化 Rainbow DQN

📋 核心要点

  1. 现有并联机器人协同装配方法在复杂环境中存在探索效率低、易违反约束等问题。
  2. 该方法通过预先优化3-RRS机械臂的几何结构,扩大安全探索区域,提升强化学习策略的性能。
  3. 实验表明,该框架在策略收敛性、可靠性和约束违反方面优于传统DQN和基于采样的规划器。

📝 摘要(中文)

本文提出了一种基于Rainbow深度Q网络(DQN)的运动学感知深度强化学习框架,用于Delta并联机器人和3-RRS(回转-回转-球面)并联机械手的协同插孔操作。一个关键贡献是在学习之前集成了一个几何设计优化阶段:调整3-RRS的几何形状,以最大化无奇异工作空间并改善条件,从而扩大强化学习策略可以探索的安全区域。这两个机械手共同暴露了一个6自由度(DoF)可控子空间(三个Delta平移,两个3-RRS旋转和一个3-RRS垂直平移);插孔任务对于绕销轴的旋转是不变的,因此任务相关的流形是五维的。协同插入问题被建模为一个马尔可夫决策过程,具有一个12维状态向量和一个包含6×2=12个增量命令的离散动作集(每个受控自由度一个正向和一个负向)。一个塑造奖励结合了密集的邻近引导、对运动学和工作空间违规的惩罚,以及对成功插入的稀疏奖励。Rainbow DQN——集成了双Q学习、决斗架构、优先回放、多步回报、用于探索的噪声线性层和一个分布值头——通过一个两阶段课程进行训练。所共同设计的框架在一个高保真运动学模拟器中得到验证,与vanilla DQN智能体和一个经典的基于采样的规划器相比,它实现了稳定的策略收敛、可靠的插入和减少的约束违规。

🔬 方法详解

问题定义:论文旨在解决Delta并联机器人和3-RRS并联机械手协同完成插孔任务的问题。现有方法,如传统的强化学习或基于采样的规划器,在处理高维状态空间、复杂约束以及探索效率方面存在不足,容易陷入局部最优或违反运动学约束。

核心思路:论文的核心思路是结合运动学感知的设计优化与深度强化学习。首先,通过优化3-RRS机械手的几何参数,最大化其无奇异工作空间,从而扩大强化学习策略可以安全探索的区域。然后,利用Rainbow DQN算法学习协同控制策略,实现高效、可靠的插孔操作。

技术框架:整体框架包含两个主要阶段:1) 几何设计优化阶段:通过优化3-RRS机械手的几何参数,提高其运动学性能。2) 强化学习训练阶段:将协同插孔任务建模为马尔可夫决策过程(MDP),使用Rainbow DQN算法训练智能体,学习最优的控制策略。MDP的状态空间为12维,动作空间为离散的12个增量命令。

关键创新:该论文的关键创新在于将运动学感知的设计优化与深度强化学习相结合。传统的强化学习方法通常直接在原始状态空间中进行探索,效率较低。通过预先优化机械手的几何结构,可以显著改善状态空间的特性,提高强化学习的效率和性能。

关键设计:在强化学习训练中,使用了Rainbow DQN算法,该算法集成了多种先进的深度强化学习技术,包括双Q学习、决斗网络、优先经验回放、多步回报、噪声线性层和分布价值头。奖励函数的设计也至关重要,论文采用了一个塑造奖励,结合了密集的邻近引导、对运动学和工作空间违规的惩罚,以及对成功插入的稀疏奖励。此外,还使用了两阶段课程学习策略,逐步提高任务的难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在运动学仿真环境中实现了稳定的策略收敛和可靠的插孔操作。与vanilla DQN智能体和经典的基于采样的规划器相比,该方法能够显著减少约束违反,提高操作的成功率和效率。具体性能数据未知,但定性结果表明了优越性。

🎯 应用场景

该研究成果可应用于高精度装配、医疗手术机器人、航空航天等领域。通过优化机器人结构和控制策略,提高复杂环境下的操作精度和效率,降低操作风险,实现更智能、更可靠的自动化操作。

📄 摘要(原文)

This paper presents a kinematics-aware deep reinforcement learning framework based on Rainbow Deep Q-Networks (DQN) for cooperative peg-in-hole manipulation by a Delta parallel robot and a 3-RRS (Revolute--Revolute--Spherical) parallel manipulator. A key contribution is the integration of a geometric design-optimization stage that precedes learning: the 3-RRS geometry is tuned to maximize the singularity-free workspace and improve conditioning, which in turn enlarges the safe region in which the reinforcement learning policy can explore. Together the two manipulators expose a 6~degree-of-freedom (DoF) controllable subspace (three Delta translations, two 3-RRS rotations, and one 3-RRS vertical translation); the peg-in-hole task is invariant to rotation about the peg axis, so the task-relevant manifold is five dimensional. The cooperative insertion problem is cast as a Markov Decision Process with a 12-dimensional state vector and a discrete action set containing $6 \times 2 = 12$ incremental commands (one positive and one negative per controlled DoF). A shaped reward combines dense proximity guidance, penalties for kinematic and workspace violations, and sparse bonuses for successful insertions. The Rainbow DQN -- integrating double Q-learning, dueling architecture, prioritized replay, multi-step returns, noisy linear layers for exploration, and a distributional value head -- is trained with a two-stage curriculum. The co-designed framework is validated in a high-fidelity kinematic simulator, where it achieves stable policy convergence, reliable insertions, and reduced constraint violations compared against a vanilla DQN agent and a classical sampling-based planner.