Multi Actor-Critic DDPG for Robot Action Space Decomposition: A Framework to Control Large 3D Deformation of Soft Linear Objects

📄 arXiv: 2312.04308v2 📥 PDF

作者: Mélodie Daniel, Aly Magassouba, Miguel Aranda, Laurent Lequièvre, Juan Antonio Corrales Ramon, Roberto Iglesias Rodriguez, Youcef Mezouar

分类: cs.RO

发布日期: 2023-12-07 (更新: 2023-12-08)

备注: 9 pages, 7 figures, 5 tables, Accepted for IEEE Robotics and Automation Letters (RA-L)


💡 一句话要点

提出MultiAC6框架,通过多Actor-Critic DDPG实现软线状物体的大形变机器人控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 软线状物体控制 深度强化学习 DDPG 动作空间分解 机器人操作 sim-to-real 3D形变

📋 核心要点

  1. 精确的DLO形变模型难以解析计算且因DLO而异,导致实现大型形变时面临挑战。
  2. MultiAC6框架通过分解机器人动作空间,利用两个DRL智能体分别控制位置和方向,实现精确形变。
  3. 实验表明,MultiAC6在真实环境中成功实现40cm形变,成功率提升66%,并具有良好的泛化性。

📝 摘要(中文)

本文提出了一种新的多Actor-Critic框架MultiAC6,用于机器人动作空间分解,以控制软线状物体(DLOs)的大型3D形变。该方法利用两个深度强化学习(DRL)智能体来控制机器人夹持器的位置和方向,从而将DLO变形为期望的形状。与以往基于DRL的研究不同,MultiAC6能够解决sim-to-real的迁移问题,在真实环境中实现高达40厘米的大型3D形变。实验结果表明,MultiAC6的成功率比单智能体方法高66%。进一步的实验研究表明,MultiAC6具有良好的泛化能力,无需重新训练即可应用于不同长度或材料的DLO。

🔬 方法详解

问题定义:论文旨在解决软线状物体(DLOs)的大型3D形变控制问题。现有方法难以建立精确的形变模型,尤其是在需要较大形变时,模型误差会显著影响控制精度。此外,从仿真环境到真实环境的迁移(sim-to-real)也是一个挑战。

核心思路:论文的核心思路是将机器人的动作空间分解为位置和方向两个部分,分别由两个独立的Actor-Critic智能体控制。这种分解降低了每个智能体的控制复杂度,从而更容易学习到有效的控制策略。同时,通过强化学习的方式,可以避免对精确形变模型的依赖。

技术框架:MultiAC6框架包含两个并行的Actor-Critic DDPG智能体。一个智能体负责控制夹持器的位置,另一个智能体负责控制夹持器的方向。每个智能体都接收环境的状态信息(例如DLO的当前形状和目标形状),并输出相应的动作。两个智能体的动作共同作用于机器人,从而改变DLO的形状。框架使用DDPG算法进行训练,DDPG是一种适用于连续动作空间的强化学习算法。

关键创新:MultiAC6的关键创新在于将机器人动作空间分解为位置和方向两个部分,并使用两个独立的Actor-Critic智能体进行控制。这种分解降低了控制的复杂性,使得智能体更容易学习到有效的控制策略。此外,该方法成功解决了sim-to-real的迁移问题,在真实环境中实现了大型3D形变。

关键设计:论文使用了DDPG算法,并针对DLO形变控制问题进行了优化。具体的网络结构和超参数设置在论文中有详细描述。奖励函数的设计是关键,它需要引导智能体朝着目标形状进行形变,同时避免不必要的动作。论文中使用了稀疏奖励,只有当DLO的形状接近目标形状时才会获得奖励。此外,论文还采用了经验回放和目标网络等技术来提高训练的稳定性和效率。

📊 实验亮点

MultiAC6在真实环境中成功实现了高达40厘米的DLO大型3D形变,并且成功率比单智能体方法高66%。更重要的是,该方法具有良好的泛化能力,无需重新训练即可应用于不同长度或材料的DLO。这些实验结果表明MultiAC6具有很强的实用价值。

🎯 应用场景

该研究成果可应用于农业、工业等领域,例如农产品采摘、电缆布线、医疗手术等。通过机器人精确控制软线状物体的形变,可以提高生产效率和操作精度,降低人工成本和风险。未来,该技术有望应用于更复杂的DLO操作任务,例如打结、编织等。

📄 摘要(原文)

Robotic manipulation of deformable linear objects (DLOs) has great potential for applications in diverse fields such as agriculture or industry. However, a major challenge lies in acquiring accurate deformation models that describe the relationship between robot motion and DLO deformations. Such models are difficult to calculate analytically and vary among DLOs. Consequently, manipulating DLOs poses significant challenges, particularly in achieving large deformations that require highly accurate global models. To address these challenges, this paper presents MultiAC6: a new multi Actor-Critic framework for robot action space decomposition to control large 3D deformations of DLOs. In our approach, two deep reinforcement learning (DRL) agents orient and position a robot gripper to deform a DLO into the desired shape. Unlike previous DRL-based studies, MultiAC6 is able to solve the sim-to-real gap, achieving large 3D deformations up to 40 cm in real-world settings. Experimental results also show that MultiAC6 has a 66\% higher success rate than a single-agent approach. Further experimental studies demonstrate that MultiAC6 generalizes well, without retraining, to DLOs with different lengths or materials.