Leveraging Extrinsic Dexterity for Occluded Grasping on Grasp Constraining Walls
作者: Keita Kobashi, Masayoshi Tomizuka
分类: cs.RO
发布日期: 2025-07-19
备注: 7 pages, 7 figures
💡 一句话要点
提出基于分层强化学习的遮挡抓取方法,利用环境约束墙提升灵巧性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 遮挡抓取 分层强化学习 条件变分自编码器 域随机化 机器人灵巧性
📋 核心要点
- 现有方法在遮挡抓取中依赖短墙假设,现实场景中长墙或高墙环境导致抓取失败。
- 提出分层强化学习框架,高层策略选择动作类型,低层技能采样连续动作,CVAE引导动作位置。
- 通过域随机化提高泛化性,在模拟环境中训练并在真实世界中成功部署,验证了方法的有效性。
📝 摘要(中文)
本研究旨在解决遮挡抓取问题,即由于环境遮挡,物体的主要抓取配置不可用。简单的平行夹爪通常因灵巧性有限和驱动约束而难以完成此类任务。先前的工作探索了物体姿态重定向,例如利用物体和环境特征(如墙壁)之间的外部接触进行枢轴旋转,使物体可抓取。然而,这些工作通常假设存在短墙,而这种假设在现实场景中可能并不总是成立。如果可用于交互的墙壁太大或太高,即使在枢轴旋转后,机器人仍然可能无法抓取物体,因此机器人必须结合不同类型的动作才能抓取。为了解决这个问题,我们提出了一个分层强化学习(RL)框架。我们使用Q学习来训练一个高层策略,该策略选择预期产生最高奖励的动作类型。然后,所选的低层技能在连续空间中采样特定的机器人动作。为了引导机器人到执行所选动作的适当位置,我们采用了条件变分自编码器(CVAE)。我们将CVAE以物体点云和技能ID为条件,使其能够根据物体几何形状和所选技能推断出合适的位置。为了提高泛化能力,我们在低层技能的训练过程中应用了域随机化。RL策略完全在模拟环境中训练,使用盒状物体,并部署到现实世界中的六个物体上。我们进行了实验来评估我们的方法,并展示了其通用性和强大的sim-to-real迁移性能,具有良好的成功率。
🔬 方法详解
问题定义:论文旨在解决由于环境遮挡导致无法直接抓取物体的问题,尤其是在可交互的墙壁过大或过高时,传统的枢轴旋转方法失效。现有方法通常假设存在短墙,这在实际场景中不总是成立,导致机器人即使在旋转后也无法抓取物体。
核心思路:论文的核心思路是利用分层强化学习,将抓取任务分解为高层策略的动作类型选择和低层技能的连续动作执行。通过条件变分自编码器(CVAE)引导机器人到合适的动作执行位置,并采用域随机化提高泛化能力,从而实现在复杂环境下的遮挡抓取。
技术框架:整体框架包含以下几个主要模块:1) 高层策略:使用Q学习训练,选择动作类型(例如,枢轴旋转、平移等)。2) 低层技能:针对每种动作类型训练一个低层技能,负责在连续空间中采样具体的机器人动作。3) 条件变分自编码器(CVAE):以物体点云和技能ID为条件,推断出适合执行所选技能的位置。4) 域随机化:在低层技能的训练过程中,对环境参数进行随机化,以提高泛化能力。
关键创新:该方法的主要创新在于:1) 提出了一个分层强化学习框架,能够结合不同类型的动作来解决复杂环境下的遮挡抓取问题。2) 利用条件变分自编码器(CVAE)来引导机器人到合适的动作执行位置,提高了抓取的成功率。3) 通过域随机化提高了模型的泛化能力,实现了从模拟环境到真实环境的有效迁移。
关键设计:高层策略使用Q学习,奖励函数的设计需要考虑抓取的成功率和效率。低层技能的网络结构和损失函数需要根据具体的动作类型进行设计。CVAE的网络结构需要能够有效地从物体点云和技能ID中提取特征,并生成合适的位置。域随机化的参数包括物体的位置、大小、颜色,以及环境的光照、纹理等。
🖼️ 关键图片
📊 实验亮点
该方法在模拟环境中训练,并在真实世界中进行了实验验证。实验结果表明,该方法具有良好的通用性和强大的sim-to-real迁移性能,能够成功抓取多种形状的物体。具体的成功率数据在论文中给出,相较于传统方法,该方法在遮挡环境下的抓取成功率有显著提升。
🎯 应用场景
该研究成果可应用于自动化装配、物流分拣、家庭服务机器人等领域,尤其是在复杂、拥挤或存在遮挡的环境中。例如,在仓库中,机器人可以利用该方法抓取被其他物体遮挡的货物。在家庭环境中,机器人可以抓取被家具遮挡的物品。该技术能够显著提高机器人的自主性和适应性。
📄 摘要(原文)
This study addresses the problem of occluded grasping, where primary grasp configurations of an object are not available due to occlusion with environment. Simple parallel grippers often struggle with such tasks due to limited dexterity and actuation constraints. Prior works have explored object pose reorientation such as pivoting by utilizing extrinsic contacts between an object and an environment feature like a wall, to make the object graspable. However, such works often assume the presence of a short wall, and this assumption may not always hold in real-world scenarios. If the wall available for interaction is too large or too tall, the robot may still fail to grasp the object even after pivoting, and the robot must combine different types of actions to grasp. To address this, we propose a hierarchical reinforcement learning (RL) framework. We use Q-learning to train a high-level policy that selects the type of action expected to yield the highest reward. The selected low-level skill then samples a specific robot action in continuous space. To guide the robot to an appropriate location for executing the selected action, we adopt a Conditional Variational Autoencoder (CVAE). We condition the CVAE on the object point cloud and the skill ID, enabling it to infer a suitable location based on the object geometry and the selected skill. To promote generalization, we apply domain randomization during the training of low-level skills. The RL policy is trained entirely in simulation with a box-like object and deployed to six objects in real world. We conduct experiments to evaluate our method and demonstrate both its generalizability and robust sim-to-real transfer performance with promising success rates.