OPG-Policy: Occluded Push-Grasp Policy Learning with Amodal Segmentation

📄 arXiv: 2503.04089v1 📥 PDF

作者: Hao Ding, Yiming Zeng, Zhaoliang Wan, Hui Cheng

分类: cs.RO

发布日期: 2025-03-06

期刊: 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)


💡 一句话要点

OPG-Policy:利用非模态分割学习的遮挡物体推抓策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人抓取 非模态分割 深度Q学习 遮挡处理 运动规划

📋 核心要点

  1. 现有方法在杂乱环境中抓取被遮挡物体时,仅依赖部分可见信息,导致运动策略效率低下。
  2. OPG-Policy利用非模态分割预测被遮挡部分,结合深度Q学习训练运动评论器,优化推抓策略。
  3. 实验结果表明,该方法在模拟和真实环境中均优于现有方法,提高了抓取成功率和运动效率。

📝 摘要(中文)

在密集杂乱环境中实现目标导向的抓取是机器人领域的根本挑战,它需要一种自适应策略来处理被遮挡的目标物体和各种配置。以往的方法通常基于被遮挡目标的部分可见分割来学习策略,以生成动作。然而,由于不同场景中各种被遮挡目标物体的不可见部分存在不确定性,这些策略在生成最优动作方面常常表现不佳,导致运动效率低下。为此,我们提出了一种新颖的框架OPG-Policy,该框架利用非模态分割来预测目标的被遮挡部分,并为目标物体部分可见的杂乱场景开发自适应的推抓策略。具体来说,我们的方法训练一个专门的非模态分割模块,用于生成各种目标物体的非模态掩码。这些掩码和场景观测通过深度Q学习映射到抓取和推动运动原语的未来奖励,以学习运动评论器。之后,由评论器预测的推和抓运动候选以及相关的领域知识被输入到协调器中,以生成由机器人执行的最优运动。在模拟和真实环境中进行的大量实验表明,我们的方法在生成用于检索被遮挡目标的运动序列方面是有效的,并且在成功率和运动效率方面优于其他基线方法。

🔬 方法详解

问题定义:论文旨在解决密集杂乱环境中机器人抓取被遮挡目标物体的问题。现有方法主要依赖于对目标物体部分可见区域的分割,但由于遮挡导致的信息缺失,使得策略学习面临不确定性,难以生成最优的推抓动作序列,导致运动效率低下。

核心思路:论文的核心思路是利用非模态分割来预测目标物体的完整形状,即使其部分被遮挡。通过预测完整的物体形状,可以减少策略学习中的不确定性,从而生成更有效的推抓动作序列。这种方法允许机器人“看到”被遮挡的部分,从而做出更明智的决策。

技术框架:OPG-Policy框架主要包含三个模块:非模态分割模块、运动评论器和协调器。首先,非模态分割模块用于预测目标物体的完整形状(非模态掩码)。然后,运动评论器使用深度Q学习,将场景观测和非模态掩码映射到抓取和推动运动原语的未来奖励,从而评估不同动作的优劣。最后,协调器结合运动评论器的输出和领域知识,生成最优的推抓动作序列,并由机器人执行。

关键创新:该论文的关键创新在于将非模态分割引入到机器人推抓策略学习中。与以往方法仅依赖部分可见信息不同,OPG-Policy能够预测被遮挡部分,从而更全面地理解目标物体的形状和状态。这种方法显著提高了策略的鲁棒性和效率。

关键设计:非模态分割模块采用深度学习模型进行训练,损失函数的设计需要考虑分割的准确性和完整性。运动评论器使用深度Q网络(DQN)进行训练,奖励函数的设计需要鼓励机器人执行有效的推抓动作,并惩罚无效或有害的动作。协调器则需要结合领域知识,例如物体的物理特性和运动学约束,来生成可行的动作序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OPG-Policy在模拟和真实环境中均取得了显著的性能提升。与基线方法相比,该方法在抓取成功率和运动效率方面均有明显优势。具体而言,在模拟环境中,成功率提升了XX%,运动步数减少了YY%。在真实环境中,也观察到了类似的性能提升,验证了该方法的有效性和鲁棒性。

🎯 应用场景

该研究成果可应用于自动化仓库、智能制造、家庭服务机器人等领域。在这些场景中,机器人需要在复杂环境中抓取被遮挡的物体,例如从拥挤的货架上取货,或在杂乱的桌面上整理物品。该技术能够提高机器人的操作效率和可靠性,降低人工干预的需求,具有重要的实际应用价值。

📄 摘要(原文)

Goal-oriented grasping in dense clutter, a fundamental challenge in robotics, demands an adaptive policy to handle occluded target objects and diverse configurations. Previous methods typically learn policies based on partially observable segments of the occluded target to generate motions. However, these policies often struggle to generate optimal motions due to uncertainties regarding the invisible portions of different occluded target objects across various scenes, resulting in low motion efficiency. To this end, we propose OPG-Policy, a novel framework that leverages amodal segmentation to predict occluded portions of the target and develop an adaptive push-grasp policy for cluttered scenarios where the target object is partially observed. Specifically, our approach trains a dedicated amodal segmentation module for diverse target objects to generate amodal masks. These masks and scene observations are mapped to the future rewards of grasp and push motion primitives via deep Q-learning to learn the motion critic. Afterward, the push and grasp motion candidates predicted by the critic, along with the relevant domain knowledge, are fed into the coordinator to generate the optimal motion implemented by the robot. Extensive experiments conducted in both simulated and real-world environments demonstrate the effectiveness of our approach in generating motion sequences for retrieving occluded targets, outperforming other baseline methods in success rate and motion efficiency.