Modular Neural Network Policies for Learning In-Flight Object Catching with a Robot Hand-Arm System

📄 arXiv: 2312.13987v1 📥 PDF

作者: Wenbin Hu, Fernando Acero, Eleftherios Triantafyllidis, Zhaocheng Liu, Zhibin Li

分类: cs.RO, cs.AI, cs.LG

发布日期: 2023-12-21

备注: 8 pages. Accepted and presented at IEEE IROS 2023

DOI: 10.1109/IROS55552.2023.10341463


💡 一句话要点

提出模块化神经网络策略,用于机器人手-臂系统学习飞行物体抓取

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人抓取 飞行物体抓取 模块化网络 深度强化学习 物体轨迹预测

📋 核心要点

  1. 现有机器人抓取飞行物体的方法在快速反应和精确控制方面存在挑战,难以适应复杂环境和多样化的物体。
  2. 该论文提出一种模块化神经网络框架,将抓取任务分解为物体状态估计、姿态评估、到达控制、抓取控制和动作融合等模块。
  3. 实验结果表明,该框架在模拟环境中实现了高成功率的飞行物体抓取,并对扰动和噪声具有鲁棒性,同时具备一定的泛化能力。

📝 摘要(中文)

本文提出了一个模块化框架,旨在使机器人手-臂系统能够学习如何抓取飞行物体。这项任务需要快速、反应灵敏且精确计时的机器人运动。该框架由五个核心模块组成:(i)物体状态估计器,学习物体轨迹预测;(ii)抓取姿态质量网络,学习对抓取物体的姿态进行评分和排序;(iii)到达控制策略,训练机器人手移动到预抓取姿态;(iv)抓取控制策略,训练执行软抓取动作以实现安全和鲁棒的抓取;(v)门控网络,训练以综合到达和抓取策略给出的动作。前两个模块通过监督学习进行训练,后三个模块在模拟环境中使用深度强化学习。我们在模拟环境中对每个模块和集成系统进行了广泛的评估,证明了飞行中抓取的高成功率以及对扰动和感觉噪声的鲁棒性。虽然仅使用简单的圆柱形和球形物体进行训练,但集成系统显示出成功泛化到训练中未使用的各种家用物体。

🔬 方法详解

问题定义:现有机器人抓取飞行物体的方法通常依赖于精确的物体建模和运动规划,难以应对快速变化的环境和不确定性。此外,对于不同形状和质量的物体,需要重新设计抓取策略,泛化能力较差。因此,如何使机器人能够快速、鲁棒地抓取各种飞行物体是一个重要的挑战。

核心思路:该论文的核心思路是将复杂的飞行物体抓取任务分解为多个独立的模块,每个模块负责不同的子任务,例如物体状态估计、姿态评估和运动控制。通过模块化的设计,可以更容易地训练和优化每个模块,并提高系统的整体鲁棒性和泛化能力。此外,使用深度学习方法可以从数据中学习复杂的抓取策略,而无需手动设计复杂的运动规划算法。

技术框架:该框架包含五个核心模块:(1)物体状态估计器,用于预测物体轨迹;(2)抓取姿态质量网络,用于评估抓取姿态的质量;(3)到达控制策略,用于控制机器人手臂移动到预抓取姿态;(4)抓取控制策略,用于执行软抓取动作;(5)门控网络,用于融合到达和抓取策略的输出。前两个模块使用监督学习训练,后三个模块使用深度强化学习训练。整个系统通过门控网络将各个模块的输出进行融合,最终控制机器人的运动。

关键创新:该论文的关键创新在于提出了一种模块化的神经网络框架,将飞行物体抓取任务分解为多个独立的模块,并使用不同的学习方法训练每个模块。这种模块化的设计可以提高系统的鲁棒性和泛化能力,并简化了训练过程。此外,使用门控网络融合不同模块的输出,可以实现更灵活和高效的抓取策略。

关键设计:物体状态估计器使用循环神经网络(RNN)预测物体轨迹。抓取姿态质量网络使用卷积神经网络(CNN)评估抓取姿态的质量。到达和抓取控制策略使用深度确定性策略梯度(DDPG)算法进行训练。门控网络使用多层感知机(MLP)融合不同模块的输出。损失函数包括轨迹预测误差、姿态质量评分误差和强化学习奖励函数。

📊 实验亮点

该论文在模拟环境中进行了大量的实验,结果表明该框架能够以较高的成功率抓取飞行物体。具体来说,对于简单的圆柱形和球形物体,抓取成功率超过90%。此外,该系统还表现出对扰动和噪声的鲁棒性。更重要的是,该系统能够泛化到训练中未使用的各种家用物体,例如杯子、瓶子等,表明该框架具有一定的泛化能力。

🎯 应用场景

该研究成果可应用于自动化生产线、物流仓储、家庭服务等领域。例如,在自动化生产线上,机器人可以抓取传送带上快速移动的零件进行组装。在物流仓储中,机器人可以抓取空中飞行的包裹进行分拣。在家庭服务中,机器人可以抓取用户抛出的物品,提供更智能化的服务。该研究的未来发展方向包括提高系统的泛化能力和鲁棒性,使其能够适应更复杂和动态的环境。

📄 摘要(原文)

We present a modular framework designed to enable a robot hand-arm system to learn how to catch flying objects, a task that requires fast, reactive, and accurately-timed robot motions. Our framework consists of five core modules: (i) an object state estimator that learns object trajectory prediction, (ii) a catching pose quality network that learns to score and rank object poses for catching, (iii) a reaching control policy trained to move the robot hand to pre-catch poses, (iv) a grasping control policy trained to perform soft catching motions for safe and robust grasping, and (v) a gating network trained to synthesize the actions given by the reaching and grasping policy. The former two modules are trained via supervised learning and the latter three use deep reinforcement learning in a simulated environment. We conduct extensive evaluations of our framework in simulation for each module and the integrated system, to demonstrate high success rates of in-flight catching and robustness to perturbations and sensory noise. Whilst only simple cylindrical and spherical objects are used for training, the integrated system shows successful generalization to a variety of household objects that are not used in training.