Zero-shot Sim-to-Real Transfer for Reinforcement Learning-based Visual Servoing of Soft Continuum Arms

📄 arXiv: 2504.16916v1 📥 PDF

作者: Hsin-Jung Yang, Mahsa Khosravi, Benjamin Walt, Girish Krishnan, Soumik Sarkar

分类: cs.RO, eess.SY

发布日期: 2025-04-23

备注: The 7th Annual Learning for Dynamics & Control Conference (L4DC) 2025


💡 一句话要点

提出基于强化学习的软体连续臂视觉伺服零样本迁移方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 软体连续臂 强化学习 视觉伺服 零样本迁移 机器人控制

📋 核心要点

  1. 软体连续臂建模和控制因其无限自由度和非线性行为而极具挑战。
  2. 利用强化学习解耦运动学与机械属性,实现运动规划和驱动细化。
  3. 仿真训练的RL控制器在真实硬件上实现了较高的零样本迁移成功率。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)的软体连续臂(SCA)视觉伺服框架,该框架具有零样本的sim-to-real迁移能力。由于软体臂的柔软性和可变形性,建模和控制面临挑战。该方法在一个能够弯曲和扭转的单节气动机械臂上进行了验证。该框架将运动学与机械属性解耦,使用RL运动学控制器进行运动规划,并使用局部控制器进行驱动细化,仅利用视觉反馈进行最小化感知。RL控制器完全在仿真环境中训练,达到了99.8%的成功率。在硬件上部署时,实现了67%的零样本sim-to-real迁移成功率,展示了其鲁棒性和适应性。该方法为SCA在3D视觉伺服中提供了一种可扩展的解决方案,并具有进一步改进和扩展应用的潜力。

🔬 方法详解

问题定义:软体连续臂由于其固有的柔软性和可变形性,导致精确建模和控制非常困难。传统的控制方法往往依赖于精确的动力学模型,而软体臂的复杂性使得建立这样的模型非常具有挑战性。现有的方法难以实现从仿真到真实的有效迁移,限制了其在实际应用中的潜力。

核心思路:本文的核心思路是将运动学控制与机械属性解耦。通过强化学习训练一个运动学控制器,该控制器负责规划软体臂的运动轨迹,而忽略其具体的机械属性。然后,使用一个局部控制器来执行具体的驱动动作,从而实现对软体臂的精确控制。这种解耦的设计使得控制器能够更好地适应软体臂的非线性行为,并提高其鲁棒性。

技术框架:该框架包含两个主要模块:RL运动学控制器和局部控制器。首先,使用视觉反馈作为输入,RL运动学控制器生成一个期望的运动轨迹。然后,局部控制器根据该轨迹,计算出需要施加到软体臂上的具体驱动信号。整个系统在仿真环境中进行训练,然后直接部署到真实硬件上,实现零样本的sim-to-real迁移。

关键创新:该方法最重要的创新点在于将强化学习与局部控制相结合,实现了对软体连续臂的有效控制,并成功实现了零样本的sim-to-real迁移。与传统的基于模型的控制方法相比,该方法不需要精确的动力学模型,因此更加鲁棒和灵活。与直接使用强化学习进行控制的方法相比,该方法通过解耦运动学与机械属性,降低了学习的难度,提高了控制器的性能。

关键设计:RL运动学控制器使用深度神经网络作为函数逼近器,输入为视觉反馈,输出为期望的运动轨迹。局部控制器使用PID控制算法,根据期望的运动轨迹和实际的运动状态,计算出需要施加到软体臂上的驱动信号。损失函数的设计旨在最小化软体臂的末端执行器与目标位置之间的距离。训练过程中使用了ADAM优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究在仿真环境中训练的RL控制器达到了99.8%的成功率。在真实硬件上进行零样本迁移实验时,该控制器实现了67%的成功率。与传统的控制方法相比,该方法具有更高的鲁棒性和适应性,能够更好地应对软体臂的非线性行为和环境的不确定性。这些结果表明,该方法具有很强的实际应用潜力。

🎯 应用场景

该研究成果可应用于医疗机器人、工业自动化、农业采摘等领域。软体连续臂具有良好的柔顺性和适应性,使其能够在复杂和狭小的环境中进行操作。例如,在医疗领域,软体臂可以用于微创手术,减少对患者的创伤。在工业自动化领域,软体臂可以用于抓取和装配易碎或形状不规则的物体。在农业领域,软体臂可以用于采摘水果和蔬菜,减少对农作物的损伤。未来,该技术有望进一步发展,实现更复杂和精细的操作。

📄 摘要(原文)

Soft continuum arms (SCAs) soft and deformable nature presents challenges in modeling and control due to their infinite degrees of freedom and non-linear behavior. This work introduces a reinforcement learning (RL)-based framework for visual servoing tasks on SCAs with zero-shot sim-to-real transfer capabilities, demonstrated on a single section pneumatic manipulator capable of bending and twisting. The framework decouples kinematics from mechanical properties using an RL kinematic controller for motion planning and a local controller for actuation refinement, leveraging minimal sensing with visual feedback. Trained entirely in simulation, the RL controller achieved a 99.8% success rate. When deployed on hardware, it achieved a 67% success rate in zero-shot sim-to-real transfer, demonstrating robustness and adaptability. This approach offers a scalable solution for SCAs in 3D visual servoing, with potential for further refinement and expanded applications.