Learning Diverse Robot Striking Motions with Diffusion Models and Kinematically Constrained Gradient Guidance

📄 arXiv: 2409.15528v2 📥 PDF

作者: Kin Man Lee, Sean Ye, Qingyu Xiao, Zixuan Wu, Zulfiqar Zaidi, David B. D'Ambrosio, Pannag R. Sanketi, Matthew Gombolay

分类: cs.RO, cs.LG

发布日期: 2024-09-23 (更新: 2025-04-17)

备注: ICRA 2025


💡 一句话要点

提出基于运动学约束梯度引导的扩散模型,用于学习多样化的机器人击打动作。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人学习 扩散模型 运动学约束 梯度引导 敏捷运动 模仿学习 强化学习

📋 核心要点

  1. 现有机器人学习方法在样本效率、处理多样化行为数据以及自然融入约束方面存在不足,这限制了其在敏捷任务中的应用。
  2. 论文提出一种基于扩散模型的离线学习方法,通过运动学约束梯度引导(KCGG)技术,在采样过程中融入运动学约束。
  3. 实验结果表明,该方法在模拟空气曲棍球和真实乒乓球任务中,分别实现了阻挡率和成功率的显著提升,优于模仿学习基线。

📝 摘要(中文)

本文提出了一种新颖的扩散建模方法,用于离线学习、约束引导和表达多样化敏捷行为。该方法的核心是运动学约束梯度引导(KCGG)技术,它通过机器人手臂的正向运动学和扩散模型计算梯度,从而指导采样过程。KCGG在最小化违反约束成本的同时,保持采样轨迹在训练数据的分布范围内。通过在模拟空气曲棍球和真实乒乓球两个具有挑战性的领域中评估KCGG,证明了该方法在时间关键型机器人任务中的有效性。在模拟空气曲棍球中,阻挡率提高了25.4%,而在乒乓球中,成功率比模仿学习基线提高了17.3%。

🔬 方法详解

问题定义:论文旨在解决机器人学习敏捷击打动作时,样本效率低、难以处理多样化数据以及难以满足运动学约束的问题。现有方法,如强化学习,需要大量训练样本和高保真模拟器;模仿学习虽然样本效率较高,但难以泛化到多样化的行为数据,并且缺乏对运动学约束的有效处理。

核心思路:论文的核心思路是利用扩散模型生成多样化的机器人运动轨迹,并通过运动学约束梯度引导(KCGG)技术,在采样过程中融入运动学约束。KCGG通过计算运动学约束的梯度,引导扩散模型生成满足约束条件的轨迹,同时保持轨迹的多样性。

技术框架:整体框架包含离线数据收集、扩散模型训练和约束引导的轨迹生成三个主要阶段。首先,收集机器人执行击打动作的演示数据。然后,利用这些数据训练一个扩散模型,该模型能够生成与训练数据相似的运动轨迹。最后,在轨迹生成阶段,利用KCGG技术,通过计算运动学约束的梯度,引导扩散模型生成满足约束条件的轨迹。

关键创新:最重要的技术创新点是运动学约束梯度引导(KCGG)技术。KCGG通过计算机器人手臂正向运动学的梯度,将运动学约束信息融入到扩散模型的采样过程中。与传统的约束优化方法不同,KCGG能够同时保证轨迹的约束满足性和多样性。

关键设计:KCGG的关键设计在于如何计算运动学约束的梯度并将其融入到扩散模型的采样过程中。论文使用自动微分技术计算机器人手臂正向运动学的梯度,并将其作为引导信号,指导扩散模型的采样过程。具体而言,KCGG通过在扩散模型的采样步骤中添加一个与运动学约束梯度相关的项,使得生成的轨迹能够逐渐满足运动学约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在模拟空气曲棍球任务中,使用KCGG的机器人阻挡率提高了25.4%,显著优于模仿学习基线。在真实乒乓球任务中,使用KCGG的机器人成功率提高了17.3%,也明显优于模仿学习基线。这些结果验证了KCGG在提高机器人敏捷性和约束满足性方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要机器人快速、敏捷和精确运动的场景,例如:工业自动化中的高速装配、医疗机器人中的精准手术、以及体育机器人中的对抗性运动。通过学习多样化的运动技能并满足运动学约束,机器人能够更好地适应复杂和动态的环境,提高工作效率和安全性。

📄 摘要(原文)

Advances in robot learning have enabled robots to generate skills for a variety of tasks. Yet, robot learning is typically sample inefficient, struggles to learn from data sources exhibiting varied behaviors, and does not naturally incorporate constraints. These properties are critical for fast, agile tasks such as playing table tennis. Modern techniques for learning from demonstration improve sample efficiency and scale to diverse data, but are rarely evaluated on agile tasks. In the case of reinforcement learning, achieving good performance requires training on high-fidelity simulators. To overcome these limitations, we develop a novel diffusion modeling approach that is offline, constraint-guided, and expressive of diverse agile behaviors. The key to our approach is a kinematic constraint gradient guidance (KCGG) technique that computes gradients through both the forward kinematics of the robot arm and the diffusion model to direct the sampling process. KCGG minimizes the cost of violating constraints while simultaneously keeping the sampled trajectory in-distribution of the training data. We demonstrate the effectiveness of our approach for time-critical robotic tasks by evaluating KCGG in two challenging domains: simulated air hockey and real table tennis. In simulated air hockey, we achieved a 25.4% increase in block rate, while in table tennis, we saw a 17.3% increase in success rate compared to imitation learning baselines.