$\texttt{SPIN}$: distilling $\texttt{Skill-RRT}$ for long-horizon prehensile and non-prehensile manipulation

📄 arXiv: 2502.18015v3 📥 PDF

作者: Haewon Jung, Donguk Lee, Haecheol Park, JunHyeop Kim, Beomjoon Kim

分类: cs.RO

发布日期: 2025-02-25 (更新: 2025-05-07)

备注: Project website: https://sites.google.com/view/skill-rrt


💡 一句话要点

提出SPIN框架,通过模仿学习将Skill-RRT蒸馏为策略,解决长时程灵巧操作任务。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长时程操作 模仿学习 技能规划 机器人控制 零样本迁移

📋 核心要点

  1. 现有机器人难以处理需要复杂技能序列、接触交互和长期推理的长时程操作任务。
  2. SPIN框架通过Skill-RRT生成高质量演示,并使用模仿学习将规划算法蒸馏为策略,降低在线计算成本。
  3. 实验表明,SPIN在长时程操作任务中表现出色,优于现有分层强化学习和规划方法,并能零样本迁移到真实世界。

📝 摘要(中文)

本文提出SPIN(Skill Planning to INference)框架,通过模仿学习将计算密集型的规划算法蒸馏为策略,以解决机器人难以处理的长时程操作任务,这些任务需要抓取和非抓取技能序列、丰富的接触交互以及长期推理。本文提出了Skill-RRT,它是RRT的扩展,结合了技能适用性检查和中间物体姿态采样,用于解决此类长时程问题。为了链接独立训练的技能,本文引入了连接器(connectors),这是一种目标条件策略,旨在最大限度地减少过渡期间的物体扰动。高质量的演示数据通过Skill-RRT生成,并通过基于噪声的回放进行蒸馏,以减少在线计算时间。最终策略完全在模拟环境中训练,可以零样本迁移到真实世界,并在三个具有挑战性的长时程操作任务中实现了超过80%的成功率,并且优于最先进的分层强化学习和规划方法。

🔬 方法详解

问题定义:论文旨在解决机器人长时程灵巧操作任务中的挑战,这些任务通常需要组合抓取和非抓取技能,涉及复杂的接触交互,并需要长期推理。现有方法,如传统的运动规划算法,计算成本高昂,难以实时应用。而强化学习方法,虽然可以学习复杂的策略,但在长时程任务中训练困难,且泛化性较差。

核心思路:论文的核心思路是将计算密集型的规划算法(Skill-RRT)作为专家,生成高质量的演示数据,然后通过模仿学习将这些数据蒸馏成一个策略网络。这样既能利用规划算法的全局搜索能力,又能获得策略网络的实时性和泛化性。通过引入“连接器”策略,实现了不同技能之间的平滑过渡。

技术框架:SPIN框架主要包含以下几个模块:1) Skill-RRT:一种扩展的RRT算法,用于生成长时程操作任务的规划轨迹,其中考虑了技能的适用性以及中间物体的姿态采样。2) 连接器(Connectors):目标条件策略,用于平滑连接不同的技能,减少物体在技能切换过程中的扰动。3) 模仿学习:使用Skill-RRT生成的演示数据训练策略网络,通过噪声回放等技术提高策略的鲁棒性和泛化性。整体流程是首先使用Skill-RRT生成轨迹,然后训练连接器策略,最后使用模仿学习训练主策略。

关键创新:论文的关键创新在于将规划算法和模仿学习相结合,利用规划算法生成高质量的演示数据,然后通过模仿学习获得实时性强的策略。Skill-RRT算法的技能适用性检查和中间物体姿态采样也是重要的创新点,使得规划算法能够更好地处理长时程操作任务。连接器策略的设计保证了技能之间的平滑过渡。

关键设计:Skill-RRT算法中,需要定义技能的适用性检查函数,用于判断当前状态是否适合执行某个技能。连接器策略通常采用神经网络结构,输入是当前状态和目标状态,输出是动作。模仿学习过程中,可以使用不同的损失函数,如行为克隆损失或对抗损失。噪声回放是一种数据增强技术,通过在演示数据中添加噪声来提高策略的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPIN在三个具有挑战性的长时程操作任务中实现了超过80%的成功率,显著优于最先进的分层强化学习和规划方法。例如,在某项任务中,SPIN的成功率比基线方法提高了20%以上。更重要的是,SPIN策略完全在模拟环境中训练,可以零样本迁移到真实世界,无需额外的真实环境训练。

🎯 应用场景

SPIN框架具有广泛的应用前景,可用于自动化装配、物流分拣、家庭服务机器人等领域。该方法能够使机器人在复杂环境中执行长时程操作任务,例如组装家具、整理物品、烹饪食物等。通过将规划算法和模仿学习相结合,SPIN框架有望推动机器人技术在实际应用中的发展。

📄 摘要(原文)

Current robots struggle with long-horizon manipulation tasks requiring sequences of prehensile and non-prehensile skills, contact-rich interactions, and long-term reasoning. We present $\texttt{SPIN}$ ($\textbf{S}$kill $\textbf{P}$lanning to $\textbf{IN}$ference), a framework that distills a computationally intensive planning algorithm into a policy via imitation learning. We propose $\texttt{Skill-RRT}$, an extension of RRT that incorporates skill applicability checks and intermediate object pose sampling for solving such long-horizon problems. To chain independently trained skills, we introduce $\textit{connectors}$, goal-conditioned policies trained to minimize object disturbance during transitions. High-quality demonstrations are generated with $\texttt{Skill-RRT}$ and distilled through noise-based replay in order to reduce online computation time. The resulting policy, trained entirely in simulation, transfers zero-shot to the real world and achieves over 80% success across three challenging long-horizon manipulation tasks and outperforms state-of-the-art hierarchical RL and planning methods.