Self-Curriculum Model-based Reinforcement Learning for Shape Control of Deformable Linear Objects

📄 arXiv: 2602.21816v1 📥 PDF

作者: Zhaowei Liang, Song Wang, Zhao Jin, Shirui Wu, Dan Wu

分类: cs.RO

发布日期: 2026-02-25


💡 一句话要点

提出基于自适应课程模型强化学习的柔性线性物体形状控制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 柔性线性物体控制 强化学习 模型预测控制 视觉伺服 自适应课程学习

📋 核心要点

  1. 现有DLO形状控制方法难以处理复杂大变形任务,尤其是在存在相反曲率的情况下,同时效率和精度不足。
  2. 论文提出一种两阶段框架,结合基于模型的强化学习和在线视觉伺服,利用自适应课程学习提升样本效率。
  3. 实验结果表明,该方法在仿真和真实环境中均优于现有方法,实现了高效且精确的DLO形状控制。

📝 摘要(中文)

精确控制柔性线性物体(DLOs)的形状在工业和医疗等机器人应用中至关重要。然而,现有方法在处理复杂的大变形任务(特别是涉及相反曲率的任务)时面临挑战,并且缺乏效率和精度。为了解决这个问题,我们提出了一种结合强化学习(RL)和在线视觉伺服的两阶段框架。在大变形阶段,引入了一种使用动力学模型集成(ensemble)的基于模型的强化学习方法,以显著提高样本效率。此外,我们设计了一种自适应课程目标生成机制,通过想象评估动态选择具有高多样性的中等难度目标,从而优化策略学习过程。在小变形阶段,部署基于雅可比矩阵的视觉伺服控制器,以确保高精度收敛。仿真结果表明,该方法能够实现高效的策略学习,并在形状控制成功率和精度方面显著优于主流基线。此外,该框架有效地将仿真中训练的策略零样本迁移到真实世界的任务中。它成功完成了所有30个案例,这些案例涵盖了不同尺寸和材料的DLOs的各种初始和目标形状。

🔬 方法详解

问题定义:论文旨在解决柔性线性物体(DLOs)在复杂大变形下的精确形状控制问题。现有方法在处理具有相反曲率的大变形任务时,面临控制精度低、样本效率差等问题,难以满足实际应用需求。

核心思路:论文的核心思路是将DLO形状控制问题分解为大变形和小变形两个阶段,并分别采用不同的控制策略。大变形阶段利用基于模型的强化学习快速探索,小变形阶段利用视觉伺服实现精确收敛。此外,引入自适应课程学习机制,动态调整训练难度,提升学习效率和泛化能力。

技术框架:该方法包含两个主要阶段:1) 大变形阶段:使用基于模型(Model-Based)的强化学习方法,通过动力学模型集成来预测DLO的未来状态,并利用自适应课程学习机制生成中间目标,引导策略学习。2) 小变形阶段:使用基于雅可比矩阵的视觉伺服控制器,根据DLO的视觉特征误差进行精确控制。两个阶段协同工作,实现DLO形状的快速且精确控制。

关键创新:论文的关键创新在于:1) 提出了一种基于模型集成的强化学习方法,显著提高了样本效率,加速了策略学习过程。2) 设计了一种自适应课程目标生成机制,能够动态选择具有高多样性的中等难度目标,优化了策略学习过程,提升了策略的泛化能力。3) 结合强化学习和视觉伺服,实现了DLO形状控制的快速性和精确性。

关键设计:在大变形阶段,动力学模型集成采用多个神经网络来预测DLO的未来状态,并通过最小化预测误差来训练这些网络。自适应课程学习机制通过评估不同目标的难度和多样性,选择合适的中间目标进行训练。在小变形阶段,雅可比矩阵用于建立DLO视觉特征与控制输入之间的关系,从而实现精确的视觉伺服控制。损失函数的设计考虑了DLO形状与目标形状之间的差异,以及控制输入的平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,该方法在形状控制成功率和精度方面显著优于主流基线方法。更重要的是,该框架能够实现零样本迁移,成功地将仿真环境中训练的策略应用到真实世界的任务中,并在不同尺寸和材料的DLOs上完成了30个不同初始和目标形状的控制任务。

🎯 应用场景

该研究成果可广泛应用于工业和医疗等领域的机器人操作任务中,例如:工业装配中柔性线缆的精确定位、医疗手术中导管的精准操控等。该方法能够提高机器人操作的自动化程度和精度,降低人工干预的需求,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Precise shape control of Deformable Linear Objects (DLOs) is crucial in robotic applications such as industrial and medical fields. However, existing methods face challenges in handling complex large deformation tasks, especially those involving opposite curvatures, and lack efficiency and precision. To address this, we propose a two-stage framework combining Reinforcement Learning (RL) and online visual servoing. In the large-deformation stage, a model-based reinforcement learning approach using an ensemble of dynamics models is introduced to significantly improve sample efficiency. Additionally, we design a self-curriculum goal generation mechanism that dynamically selects intermediate-difficulty goals with high diversity through imagined evaluations, thereby optimizing the policy learning process. In the small-deformation stage, a Jacobian-based visual servo controller is deployed to ensure high-precision convergence. Simulation results show that the proposed method enables efficient policy learning and significantly outperforms mainstream baselines in shape control success rate and precision. Furthermore, the framework effectively transfers the policy trained in simulation to real-world tasks with zero-shot adaptation. It successfully completes all 30 cases with diverse initial and target shapes across DLOs of different sizes and materials. The project website is available at: https://anonymous.4open.science/w/sc-mbrl-dlo-EB48/