Real-Time Reinforcement Learning for Dynamic Tasks with a Parallel Soft Robot

📄 arXiv: 2509.19525v1 📥 PDF

作者: James Avtges, Jake Ketchum, Millicent Schlafly, Helena Young, Taekyoung Kim, Allison Pinosky, Ryan L. Truby, Todd D. Murphey

分类: cs.RO

发布日期: 2025-09-23

备注: Published at IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025


💡 一句话要点

提出基于课程学习的最大扩散强化学习,实现软体机器人在动态任务中的实时单次部署控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 软体机器人 强化学习 课程学习 动态控制 实时控制 最大扩散强化学习 单次部署 容错控制

📋 核心要点

  1. 软体机器人在动态环境下的闭环控制面临非线性、滞后等挑战,传统方法难以充分利用其构型空间。
  2. 论文提出基于课程学习的最大扩散强化学习方法,通过逐步扩展平衡邻域,实现单次部署的可靠控制策略学习。
  3. 实验表明,该方法在驱动器失效情况下仍能快速学习动态平衡,性能接近完整平台,训练时间仅需15分钟。

📝 摘要(中文)

闭环控制仍然是软体机器人领域的一个开放性挑战。软体驱动器在动态载荷条件下的非线性响应限制了软体机器人控制中解析模型的使用。传统方法通常为了避免非线性、滞后、大变形和驱动器损坏的风险,而未能充分利用软体机器人的构型空间。此外,诸如强化学习(RL)等基于 episodic 数据的控制方法通常受到样本效率和初始化不一致性的限制。本文展示了RL在实时单次硬件部署中可靠地学习动态平衡任务的控制策略。我们使用基于电动剪切膨胀(HSA)结构的并行3D打印软体驱动器构建了一个可变形的Stewart平台。通过引入基于已知平衡邻域扩展的课程学习方法,我们实现了在任意坐标下的可靠单次部署平衡。除了对基于模型和无模型方法的性能进行基准测试外,我们还证明了在单次部署中,最大扩散RL能够在部分驱动器失效(通过屈曲和使用断线钳破坏驱动器)后学习动态平衡。训练无需先验数据,最快可在15分钟内完成,性能与完整平台几乎相同。硬件上的单次学习有助于软体机器人系统在现实世界中可靠地学习,并将使更多样化和有能力的软体机器人成为可能。

🔬 方法详解

问题定义:论文旨在解决软体机器人在动态任务中,由于其非线性特性和传统控制方法的局限性,难以实现高效、鲁棒的闭环控制的问题。现有方法通常依赖于精确的数学模型,但在软体机器人复杂变形和动态载荷下,建立精确模型非常困难。此外,传统的强化学习方法在软体机器人上的应用面临样本效率低和泛化能力差的挑战。

核心思路:论文的核心思路是利用课程学习的思想,从一个已知的平衡状态出发,逐步扩展训练范围,引导强化学习算法探索更广阔的状态空间。同时,采用最大扩散强化学习(Maximum Diffusion RL)算法,鼓励探索并提高样本效率。这种方法旨在克服传统强化学习在软体机器人控制中遇到的样本效率和鲁棒性问题。

技术框架:整体框架包括以下几个主要阶段:1) 软体机器人平台搭建:使用基于电动剪切膨胀(HSA)结构的并行3D打印软体驱动器构建可变形的Stewart平台。2) 课程学习策略设计:定义一系列难度递增的任务,从平衡状态附近的小扰动开始,逐步扩大扰动范围。3) 最大扩散强化学习算法实现:使用最大扩散RL算法训练控制策略,该算法旨在最大化状态空间中的扩散,从而提高探索效率。4) 实时部署和评估:将训练好的策略部署到实际软体机器人上,评估其在动态平衡任务中的性能。

关键创新:最重要的技术创新点在于将课程学习与最大扩散强化学习相结合,并成功应用于软体机器人的实时控制。与传统的强化学习方法相比,该方法能够显著提高样本效率和鲁棒性,使得软体机器人能够在单次部署中快速学习复杂的动态控制策略。此外,该方法还展示了在部分驱动器失效的情况下,软体机器人仍然能够学习有效的控制策略,体现了其强大的适应性和容错能力。

关键设计:课程学习策略的关键在于如何定义难度递增的任务序列。论文中采用的方法是逐步扩大平衡状态附近的扰动范围,例如,从小的角度偏移开始,逐渐增加偏移量。最大扩散RL算法的关键在于如何设计奖励函数和状态表示。奖励函数旨在鼓励机器人保持平衡,并尽可能快地回到平衡状态。状态表示包括机器人的位置、速度和驱动器的状态。

📊 实验亮点

实验结果表明,基于课程学习的最大扩散强化学习方法能够在15分钟内训练出有效的动态平衡控制策略,性能与完整平台几乎相同。即使在部分驱动器失效的情况下(通过屈曲或使用断线钳破坏驱动器),该方法仍然能够学习到有效的控制策略,体现了其强大的鲁棒性和适应性。与传统的基于模型的方法相比,该方法无需精确的数学模型,能够更好地应对软体机器人的非线性特性。

🎯 应用场景

该研究成果可应用于各种需要柔顺性和适应性的机器人应用,例如医疗康复机器人、灾难救援机器人、农业采摘机器人等。通过实时学习和适应环境变化,软体机器人能够更好地完成复杂任务,提高工作效率和安全性。此外,该方法还可用于开发更具弹性和容错能力的机器人系统,使其在恶劣环境下也能稳定工作。

📄 摘要(原文)

Closed-loop control remains an open challenge in soft robotics. The nonlinear responses of soft actuators under dynamic loading conditions limit the use of analytic models for soft robot control. Traditional methods of controlling soft robots underutilize their configuration spaces to avoid nonlinearity, hysteresis, large deformations, and the risk of actuator damage. Furthermore, episodic data-driven control approaches such as reinforcement learning (RL) are traditionally limited by sample efficiency and inconsistency across initializations. In this work, we demonstrate RL for reliably learning control policies for dynamic balancing tasks in real-time single-shot hardware deployments. We use a deformable Stewart platform constructed using parallel, 3D-printed soft actuators based on motorized handed shearing auxetic (HSA) structures. By introducing a curriculum learning approach based on expanding neighborhoods of a known equilibrium, we achieve reliable single-deployment balancing at arbitrary coordinates. In addition to benchmarking the performance of model-based and model-free methods, we demonstrate that in a single deployment, Maximum Diffusion RL is capable of learning dynamic balancing after half of the actuators are effectively disabled, by inducing buckling and by breaking actuators with bolt cutters. Training occurs with no prior data, in as fast as 15 minutes, with performance nearly identical to the fully-intact platform. Single-shot learning on hardware facilitates soft robotic systems reliably learning in the real world and will enable more diverse and capable soft robots.