Robust Manipulation Primitive Learning via Domain Contraction

📄 arXiv: 2410.11600v1 📥 PDF

作者: Teng Xue, Amirreza Razmjoo, Suhan Shetty, Sylvain Calinon

分类: cs.RO

发布日期: 2024-10-15

备注: Conference on Robot Learning (CoRL), 2024


💡 一句话要点

提出基于领域收缩的鲁棒操作原语学习方法,提升接触式操作的泛化性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 鲁棒操作 领域自适应 领域随机化 操作原语学习 接触式操作

📋 核心要点

  1. 现有领域自适应和随机化方法在接触式操作中存在泛化性不足或过于保守的问题。
  2. 提出一种双层方法,结合参数增强策略学习和领域收缩的策略检索,实现鲁棒操作。
  3. 实验表明,该方法在击打、推动和重新定向等任务中,能为不同参数实例生成更优策略。

📝 摘要(中文)

接触式操作在人类日常活动中至关重要,但参数的不确定性给机器人通过规划和控制实现类似性能带来了巨大挑战。为了解决这个问题,领域自适应和领域随机化已被提出用于鲁棒策略学习。然而,它们要么失去跨多样化实例的泛化能力,要么由于忽略实例特定信息而表现保守。本文提出了一种双层方法来学习鲁棒的操作原语,包括使用多个模型的参数增强策略学习,以及通过领域收缩的参数条件策略检索。该方法统一了领域随机化和领域自适应,在保持泛化能力的同时提供最佳行为。我们在三种接触式操作原语(击打、推动和重新定向)上验证了所提出的方法。实验结果表明,我们的方法在为具有不同物理参数的实例生成鲁棒策略方面具有优越的性能。

🔬 方法详解

问题定义:论文旨在解决接触式操作中,由于物理参数不确定性导致机器人难以生成鲁棒策略的问题。现有方法如领域随机化和领域自适应,要么泛化能力不足,无法适应多样化的实例;要么过于保守,忽略了实例的特定信息,导致性能受限。

核心思路:论文的核心思路是将领域随机化和领域自适应相结合,通过双层学习框架,既能利用领域随机化提升策略的泛化能力,又能通过领域自适应针对特定实例进行优化。具体而言,首先使用多个模型进行参数增强策略学习,然后通过领域收缩进行参数条件策略检索,从而找到最优的行为策略。

技术框架:该方法采用双层学习框架。第一层是参数增强策略学习,使用多个模型对不同的参数空间进行建模,学习得到多个策略。第二层是参数条件策略检索,通过领域收缩,根据当前实例的参数信息,从多个策略中选择或组合出最优的策略。整体流程包括离线训练阶段和在线执行阶段。离线训练阶段学习多个策略模型,在线执行阶段根据实例参数选择或组合策略。

关键创新:该方法最重要的创新点在于将领域随机化和领域自适应统一到一个框架中,通过领域收缩实现参数条件策略检索。与传统的领域随机化方法相比,该方法能够更好地利用实例的特定信息,生成更优的策略。与传统的领域自适应方法相比,该方法具有更强的泛化能力,能够适应多样化的实例。

关键设计:论文的关键设计包括:1) 使用多个模型进行参数增强策略学习,每个模型对应不同的参数空间;2) 提出领域收缩方法,根据实例参数选择或组合策略;3) 设计合适的损失函数,用于训练策略模型,例如考虑了策略的鲁棒性和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在击打、推动和重新定向等任务中,相比于传统的领域随机化和领域自适应方法,能够生成更鲁棒的策略。具体而言,在不同物理参数的实例上,该方法能够显著提高任务成功率和操作精度,验证了其优越的性能和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要接触式操作的机器人任务,例如装配、抓取、操作工具等。通过学习鲁棒的操作原语,机器人能够在不确定环境中更可靠地完成任务,提高自动化水平和工作效率。未来可扩展到更复杂的任务和环境,例如医疗机器人、服务机器人等。

📄 摘要(原文)

Contact-rich manipulation plays an important role in human daily activities, but uncertain parameters pose significant challenges for robots to achieve comparable performance through planning and control. To address this issue, domain adaptation and domain randomization have been proposed for robust policy learning. However, they either lose the generalization ability across diverse instances or perform conservatively due to neglecting instance-specific information. In this paper, we propose a bi-level approach to learn robust manipulation primitives, including parameter-augmented policy learning using multiple models, and parameter-conditioned policy retrieval through domain contraction. This approach unifies domain randomization and domain adaptation, providing optimal behaviors while keeping generalization ability. We validate the proposed method on three contact-rich manipulation primitives: hitting, pushing, and reorientation. The experimental results showcase the superior performance of our approach in generating robust policies for instances with diverse physical parameters.