Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning

作者: Haoyuan Wang, Zihao Dong, Hongliang Lei, Zejia Zhang, Weizhuang Shi, Wei Luo, Weiwei Wan, Jian Huang

分类: cs.RO, cs.LG

发布日期: 2025-02-17

DOI: 10.1109/TASE.2025.3627775

💡 一句话要点

提出HGCR-DDPG算法，结合NMPC生成演示数据，提升机器人对可变形物体的操作能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 可变形物体 强化学习 演示学习 非线性模型预测控制 行为克隆 高维模糊逻辑

📋 核心要点

现有强化学习方法在可变形物体操作中学习效率较低，且依赖大量人工演示数据，成本高昂。
提出HGCR-DDPG算法，结合高维模糊抓取点选择、改进的行为克隆和顺序策略学习，提升学习效率。
采用基于NMPC的低成本演示数据生成方法，仿真和真实实验验证了算法的有效性，并在织物操作任务中取得良好效果。

📝 摘要（中文）

本文研究了基于演示增强强化学习的机器人可变形物体操作。为了提高强化学习的学习效率，我们从多个方面增强了演示数据的使用，并提出了HGCR-DDPG算法。该算法采用了一种新颖的高维模糊方法进行抓取点选择，一种改进的行为克隆方法来增强Rainbow-DDPG中的数据驱动学习，以及一种顺序策略学习策略。与基线算法（Rainbow-DDPG）相比，我们提出的HGCR-DDPG实现了2.01倍的全局平均奖励，并将全局平均标准差降低到基线算法的45%。为了降低演示收集的人工成本，我们提出了一种基于非线性模型预测控制（NMPC）的低成本演示收集方法。仿真实验结果表明，通过NMPC收集的演示可以用于训练HGCR-DDPG，达到与人类演示相当的结果。为了验证我们提出的方法在真实环境中的可行性，我们进行了涉及可变形物体操作的物理实验。我们操纵织物执行三个任务：对角折叠、中心轴折叠和平整。实验结果表明，我们提出的方法在这三个任务中分别实现了83.3%、80%和100%的成功率，验证了我们方法的有效性。与当前用于机器人操作的大模型方法相比，该算法是轻量级的，需要的计算资源更少，并为特定任务提供定制和高效的适应性。

🔬 方法详解

问题定义：机器人操作可变形物体，例如织物折叠、平整等任务，面临状态空间高维、动作空间连续、奖励稀疏等挑战。传统的强化学习方法需要大量的试错，学习效率低下。此外，获取高质量的人工演示数据成本高昂，限制了算法的实际应用。

核心思路：论文的核心思路是利用高质量的演示数据来引导强化学习过程，从而提高学习效率。同时，为了降低演示数据的获取成本，采用基于NMPC的方法自动生成演示数据。HGCR-DDPG算法通过改进抓取点选择、行为克隆和策略学习，进一步提升了学习效果。

技术框架：整体框架包括三个主要部分：1) 基于NMPC的演示数据生成模块；2) HGCR-DDPG算法训练模块；3) 真实机器人实验验证模块。NMPC模块根据任务目标生成轨迹，作为演示数据。HGCR-DDPG算法利用这些演示数据进行预训练，然后通过强化学习进行微调。最后，在真实机器人平台上进行实验，验证算法的有效性。

关键创新：主要创新点在于：1) 提出了HGCR-DDPG算法，该算法结合了高维模糊抓取点选择、改进的行为克隆和顺序策略学习，提高了强化学习的效率和稳定性。2) 提出了一种基于NMPC的低成本演示数据生成方法，降低了对人工演示数据的依赖。3) 将这些方法成功应用于真实机器人平台上的可变形物体操作任务。

关键设计：高维模糊抓取点选择模块使用模糊逻辑来选择最佳抓取点，考虑了多个因素，如物体形状、目标位置等。改进的行为克隆方法通过调整损失函数，更好地利用演示数据。顺序策略学习策略将复杂的任务分解为多个子任务，并依次学习每个子任务的策略。NMPC模块通过优化控制序列，生成满足任务目标的轨迹。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HGCR-DDPG算法相比于基线算法Rainbow-DDPG，全局平均奖励提高了2.01倍，全局平均标准差降低到基线算法的45%。基于NMPC生成的演示数据训练的HGCR-DDPG算法，可以达到与人类演示数据相当的性能。在真实机器人实验中，该方法在对角折叠、中心轴折叠和平整三个织物操作任务中分别取得了83.3%、80%和100%的成功率。

🎯 应用场景

该研究成果可应用于服装制造、医疗器械组装、食品加工等领域，实现机器人对柔性物体的自动化操作。例如，在服装制造中，机器人可以自动完成布料的裁剪、缝纫和折叠等任务。在医疗器械组装中，机器人可以精确地操作柔性导管等医疗器械。该研究有助于提高生产效率，降低人工成本，并改善工作环境。

📄 摘要（原文）

In this work, we conducted research on deformable object manipulation by robots based on demonstration-enhanced reinforcement learning (RL). To improve the learning efficiency of RL, we enhanced the utilization of demonstration data from multiple aspects and proposed the HGCR-DDPG algorithm. It uses a novel high-dimensional fuzzy approach for grasping-point selection, a refined behavior-cloning method to enhance data-driven learning in Rainbow-DDPG, and a sequential policy-learning strategy. Compared to the baseline algorithm (Rainbow-DDPG), our proposed HGCR-DDPG achieved 2.01 times the global average reward and reduced the global average standard deviation to 45% of that of the baseline algorithm. To reduce the human labor cost of demonstration collection, we proposed a low-cost demonstration collection method based on Nonlinear Model Predictive Control (NMPC). Simulation experiment results show that demonstrations collected through NMPC can be used to train HGCR-DDPG, achieving comparable results to those obtained with human demonstrations. To validate the feasibility of our proposed methods in real-world environments, we conducted physical experiments involving deformable object manipulation. We manipulated fabric to perform three tasks: diagonal folding, central axis folding, and flattening. The experimental results demonstrate that our proposed method achieved success rates of 83.3%, 80%, and 100% for these three tasks, respectively, validating the effectiveness of our approach. Compared to current large-model approaches for robot manipulation, the proposed algorithm is lightweight, requires fewer computational resources, and offers task-specific customization and efficient adaptability for specific tasks.

Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理