Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning
作者: Haoyuan Wang, Zihao Dong, Hongliang Lei, Zejia Zhang, Weizhuang Shi, Wei Luo, Weiwei Wan, Jian Huang
分类: cs.RO, cs.LG
发布日期: 2025-02-17
DOI: 10.1109/TASE.2025.3627775
💡 一句话要点
提出HGCR-DDPG算法,结合NMPC生成演示数据,提升机器人对可变形物体的操作能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 可变形物体 强化学习 演示学习 非线性模型预测控制 行为克隆 高维模糊逻辑
📋 核心要点
- 现有强化学习方法在可变形物体操作中学习效率较低,且依赖大量人工演示数据,成本高昂。
- 提出HGCR-DDPG算法,结合高维模糊抓取点选择、改进的行为克隆和顺序策略学习,提升学习效率。
- 采用基于NMPC的低成本演示数据生成方法,仿真和真实实验验证了算法的有效性,并在织物操作任务中取得良好效果。
📝 摘要(中文)
本文研究了基于演示增强强化学习的机器人可变形物体操作。为了提高强化学习的学习效率,我们从多个方面增强了演示数据的使用,并提出了HGCR-DDPG算法。该算法采用了一种新颖的高维模糊方法进行抓取点选择,一种改进的行为克隆方法来增强Rainbow-DDPG中的数据驱动学习,以及一种顺序策略学习策略。与基线算法(Rainbow-DDPG)相比,我们提出的HGCR-DDPG实现了2.01倍的全局平均奖励,并将全局平均标准差降低到基线算法的45%。为了降低演示收集的人工成本,我们提出了一种基于非线性模型预测控制(NMPC)的低成本演示收集方法。仿真实验结果表明,通过NMPC收集的演示可以用于训练HGCR-DDPG,达到与人类演示相当的结果。为了验证我们提出的方法在真实环境中的可行性,我们进行了涉及可变形物体操作的物理实验。我们操纵织物执行三个任务:对角折叠、中心轴折叠和平整。实验结果表明,我们提出的方法在这三个任务中分别实现了83.3%、80%和100%的成功率,验证了我们方法的有效性。与当前用于机器人操作的大模型方法相比,该算法是轻量级的,需要的计算资源更少,并为特定任务提供定制和高效的适应性。
🔬 方法详解
问题定义:机器人操作可变形物体,例如织物折叠、平整等任务,面临状态空间高维、动作空间连续、奖励稀疏等挑战。传统的强化学习方法需要大量的试错,学习效率低下。此外,获取高质量的人工演示数据成本高昂,限制了算法的实际应用。
核心思路:论文的核心思路是利用高质量的演示数据来引导强化学习过程,从而提高学习效率。同时,为了降低演示数据的获取成本,采用基于NMPC的方法自动生成演示数据。HGCR-DDPG算法通过改进抓取点选择、行为克隆和策略学习,进一步提升了学习效果。
技术框架:整体框架包括三个主要部分:1) 基于NMPC的演示数据生成模块;2) HGCR-DDPG算法训练模块;3) 真实机器人实验验证模块。NMPC模块根据任务目标生成轨迹,作为演示数据。HGCR-DDPG算法利用这些演示数据进行预训练,然后通过强化学习进行微调。最后,在真实机器人平台上进行实验,验证算法的有效性。
关键创新:主要创新点在于:1) 提出了HGCR-DDPG算法,该算法结合了高维模糊抓取点选择、改进的行为克隆和顺序策略学习,提高了强化学习的效率和稳定性。2) 提出了一种基于NMPC的低成本演示数据生成方法,降低了对人工演示数据的依赖。3) 将这些方法成功应用于真实机器人平台上的可变形物体操作任务。
关键设计:高维模糊抓取点选择模块使用模糊逻辑来选择最佳抓取点,考虑了多个因素,如物体形状、目标位置等。改进的行为克隆方法通过调整损失函数,更好地利用演示数据。顺序策略学习策略将复杂的任务分解为多个子任务,并依次学习每个子任务的策略。NMPC模块通过优化控制序列,生成满足任务目标的轨迹。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HGCR-DDPG算法相比于基线算法Rainbow-DDPG,全局平均奖励提高了2.01倍,全局平均标准差降低到基线算法的45%。基于NMPC生成的演示数据训练的HGCR-DDPG算法,可以达到与人类演示数据相当的性能。在真实机器人实验中,该方法在对角折叠、中心轴折叠和平整三个织物操作任务中分别取得了83.3%、80%和100%的成功率。
🎯 应用场景
该研究成果可应用于服装制造、医疗器械组装、食品加工等领域,实现机器人对柔性物体的自动化操作。例如,在服装制造中,机器人可以自动完成布料的裁剪、缝纫和折叠等任务。在医疗器械组装中,机器人可以精确地操作柔性导管等医疗器械。该研究有助于提高生产效率,降低人工成本,并改善工作环境。
📄 摘要(原文)
In this work, we conducted research on deformable object manipulation by robots based on demonstration-enhanced reinforcement learning (RL). To improve the learning efficiency of RL, we enhanced the utilization of demonstration data from multiple aspects and proposed the HGCR-DDPG algorithm. It uses a novel high-dimensional fuzzy approach for grasping-point selection, a refined behavior-cloning method to enhance data-driven learning in Rainbow-DDPG, and a sequential policy-learning strategy. Compared to the baseline algorithm (Rainbow-DDPG), our proposed HGCR-DDPG achieved 2.01 times the global average reward and reduced the global average standard deviation to 45% of that of the baseline algorithm. To reduce the human labor cost of demonstration collection, we proposed a low-cost demonstration collection method based on Nonlinear Model Predictive Control (NMPC). Simulation experiment results show that demonstrations collected through NMPC can be used to train HGCR-DDPG, achieving comparable results to those obtained with human demonstrations. To validate the feasibility of our proposed methods in real-world environments, we conducted physical experiments involving deformable object manipulation. We manipulated fabric to perform three tasks: diagonal folding, central axis folding, and flattening. The experimental results demonstrate that our proposed method achieved success rates of 83.3%, 80%, and 100% for these three tasks, respectively, validating the effectiveness of our approach. Compared to current large-model approaches for robot manipulation, the proposed algorithm is lightweight, requires fewer computational resources, and offers task-specific customization and efficient adaptability for specific tasks.