Composing Diffusion Policies for Few-shot Learning of Movement Trajectories
作者: Omkar Patil, Anant Sah, Nakul Gopalan
分类: cs.RO, cs.AI
发布日期: 2024-10-22
备注: 6(+1) pages, 6 figures
💡 一句话要点
提出基于扩散策略组合的DSE方法,用于机器人运动轨迹的少样本学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 少样本学习 扩散模型 机器人运动 策略组合 运动轨迹 最大均值差异 前向运动学
📋 核心要点
- 现有机器人技能学习方法难以快速组合已有技能,导致学习新任务需要大量样本。
- DSE方法通过概率组合扩散策略,利用基础策略先验,实现对少样本演示数据分布的建模。
- 实验表明,DSE方法在少样本学习中,能有效降低MMD-FK误差,并在真实机器人上验证了其有效性。
📝 摘要(中文)
本文提出了一种新颖的组合方法,称为扩散分数均衡(DSE),它通过组合基础策略先验来实现新技能的少样本学习。该方法基于概率性地组合扩散策略,以更好地建模少样本演示数据分布。目标是学习机器人的运动,而非面向目标的轨迹。由于缺乏通用的技能或运动与演示之间误差的评估指标,本文提出了一种概率度量——前向运动学核最大均值差异(MMD-FK),它与任务和动作空间无关。实验结果表明,DSE方法在各种技能和演示数量上,能够实现超过30%的MMD-FK降低。此外,通过真实世界的实验,验证了该方法在5次演示中教会机器人新轨迹的有效性。
🔬 方法详解
问题定义:现有机器人技能学习方法在面对新任务时,通常需要从头开始学习,无法有效利用已有的技能知识。这导致了对大量训练样本的依赖,尤其是在真实机器人环境中进行训练时,成本很高。缺乏通用的运动技能评估指标也阻碍了少样本学习的进展。
核心思路:论文的核心思路是将不同的基础运动策略视为先验知识,通过概率组合的方式,将这些先验知识融入到新任务的学习中。这种组合策略能够更好地拟合少量的演示数据,从而实现快速学习。使用扩散模型作为基础策略的表示,能够捕捉运动轨迹的复杂分布。
技术框架:DSE方法主要包含以下几个阶段:1)预训练阶段:训练多个基础运动策略的扩散模型。2)组合阶段:给定新任务的少量演示数据,通过优化组合权重,将多个基础策略的扩散模型进行概率组合。3)采样阶段:从组合后的扩散模型中采样生成新的运动轨迹。4)评估阶段:使用MMD-FK指标评估生成轨迹与演示数据之间的相似度。
关键创新:论文的关键创新在于:1)提出了一种基于扩散模型组合的少样本学习框架,能够有效利用基础策略的先验知识。2)提出了一种与任务和动作空间无关的运动技能评估指标MMD-FK,解决了缺乏通用评估指标的问题。
关键设计:DSE方法的关键设计包括:1)使用扩散模型作为基础策略的表示,能够捕捉运动轨迹的复杂分布。2)使用最大均值差异(MMD)作为优化目标,用于衡量生成轨迹与演示数据之间的相似度。3)使用前向运动学核(Forward Kinematics Kernel)将轨迹映射到关节空间,从而实现与任务和动作空间无关的评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DSE方法在少样本学习中,能够显著降低MMD-FK误差。在各种技能和演示数量上,DSE方法能够实现超过30%的MMD-FK降低。真实机器人实验验证了该方法在5次演示中教会机器人新轨迹的有效性,证明了其在实际应用中的潜力。
🎯 应用场景
该研究成果可应用于各种机器人任务,例如:机器人辅助装配、机器人运动技能学习、人机协作等。通过少量演示即可教会机器人新的运动技能,降低了机器人部署和使用的门槛。未来,该方法可以扩展到更复杂的任务和环境,实现更智能、更灵活的机器人。
📄 摘要(原文)
Humans can perform various combinations of physical skills without having to relearn skills from scratch every single time. For example, we can swing a bat when walking without having to re-learn such a policy from scratch by composing the individual skills of walking and bat swinging. Enabling robots to combine or compose skills is essential so they can learn novel skills and tasks faster with fewer real world samples. To this end, we propose a novel compositional approach called DSE- Diffusion Score Equilibrium that enables few-shot learning for novel skills by utilizing a combination of base policy priors. Our method is based on probabilistically composing diffusion policies to better model the few-shot demonstration data-distribution than any individual policy. Our goal here is to learn robot motions few-shot and not necessarily goal oriented trajectories. Unfortunately we lack a general purpose metric to evaluate the error between a skill or motion and the provided demonstrations. Hence, we propose a probabilistic measure - Maximum Mean Discrepancy on the Forward Kinematics Kernel (MMD-FK), that is task and action space agnostic. By using our few-shot learning approach DSE, we show that we are able to achieve a reduction of over 30% in MMD-FK across skills and number of demonstrations. Moreover, we show the utility of our approach through real world experiments by teaching novel trajectories to a robot in 5 demonstrations.