X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations
作者: Maximus A. Pace, Prithwish Dan, Chuanruo Ning, Atiksh Bhardwaj, Audrey Du, Edward W. Duan, Wei-Chiu Ma, Kushal Kedia
分类: cs.RO, cs.AI, cs.CV
发布日期: 2025-11-06
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
X-Diffusion:利用跨具身人类演示训练扩散策略,提升机器人操作性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)
关键词: 扩散模型 机器人学习 模仿学习 跨具身 人类演示 策略训练 具身差异
📋 核心要点
- 现有方法直接利用人类演示数据训练机器人策略,忽略了人类与机器人在具身方面的差异,导致策略性能下降。
- X-Diffusion的核心思想是利用扩散过程,通过向动作添加噪声来消除低层次的执行差异,保留高层次的任务指导。
- 实验结果表明,X-Diffusion在五个操作任务中,相比最佳基线,平均成功率提高了16%,验证了其有效性。
📝 摘要(中文)
人类视频可以快速且大规模地记录,使其成为机器人学习中极具吸引力的训练数据来源。然而,人类和机器人在具身方面存在根本差异,导致动作执行不匹配。直接对人类手部运动进行运动学重定向可能会产生机器人无法实际执行的动作。尽管存在这些低层次的差异,人类演示仍然提供了关于如何操作和与物体交互的有价值的运动线索。我们的核心思想是利用前向扩散过程:随着噪声被添加到动作中,低层次的执行差异会逐渐消失,而高层次的任务指导得以保留。我们提出了X-Diffusion,一个用于训练扩散策略的原则性框架,它最大限度地利用人类数据,同时避免学习动态上不可行的运动。X-Diffusion首先训练一个分类器来预测噪声动作是由人类还是机器人执行的。然后,只有在添加了足够的噪声,使得分类器无法区分其具身时,人类动作才会被纳入策略训练中。与机器人执行一致的动作在高噪声水平下监督细粒度的去噪,而不匹配的人类动作仅在高噪声水平下提供粗略的指导。我们的实验表明,在执行不匹配的情况下进行朴素的共同训练会降低策略性能,而X-Diffusion始终可以提高策略性能。在五个操作任务中,X-Diffusion的平均成功率比最佳基线高16%。项目网站位于https://portal-cornell.github.io/X-Diffusion/。
🔬 方法详解
问题定义:论文旨在解决如何有效地利用人类演示数据来训练机器人策略的问题。直接使用人类演示数据进行训练会导致机器人学习到无法执行的动作,因为人类和机器人在具身方面存在差异,例如运动范围、关节结构等。现有的方法通常忽略这些差异,导致训练出的策略性能不佳。
核心思路:论文的核心思路是利用扩散模型,通过逐步向动作添加噪声,来消除人类和机器人在低层次执行上的差异,同时保留高层次的任务指导信息。随着噪声的增加,动作的精细执行细节逐渐模糊,而动作的目的和策略则得以保留。这样,机器人就可以从人类演示中学习到有用的策略,而不会受到具身差异的干扰。
技术框架:X-Diffusion的整体框架包含以下几个主要阶段:1) 数据收集:收集人类演示数据和机器人演示数据。2) 噪声添加:使用扩散模型,逐步向动作添加噪声,生成不同噪声水平的动作。3) 具身分类器训练:训练一个分类器,用于区分噪声动作是由人类还是机器人执行的。4) 策略训练:使用扩散模型进行策略训练,根据噪声水平和具身分类器的结果,选择性地利用人类和机器人数据。具体来说,在高噪声水平下,人类数据提供粗略的指导;在低噪声水平下,机器人数据提供细粒度的监督。
关键创新:X-Diffusion的关键创新在于其利用扩散模型来桥接人类和机器人在具身方面的差异。通过控制噪声水平,可以灵活地利用人类数据中的高层次策略信息,同时避免学习到无法执行的低层次动作。此外,具身分类器的引入使得可以根据动作的噪声水平和具身类型,自适应地调整训练策略。
关键设计:X-Diffusion的关键设计包括:1) 扩散模型的选择:论文使用了标准的扩散模型,例如DDPM。2) 噪声调度:论文使用了线性噪声调度,控制噪声添加的速度。3) 具身分类器的网络结构:论文使用了简单的MLP网络作为具身分类器。4) 损失函数:论文使用了混合损失函数,包括重构损失、分类损失和策略损失。策略损失根据噪声水平和具身分类器的结果进行加权,以实现选择性地利用人类和机器人数据。
📊 实验亮点
X-Diffusion在五个机器人操作任务中进行了评估,包括开抽屉、关抽屉、放置物体等。实验结果表明,X-Diffusion的平均成功率比最佳基线高16%。此外,实验还验证了朴素的共同训练会导致策略性能下降,而X-Diffusion可以有效地解决这个问题。
🎯 应用场景
X-Diffusion具有广泛的应用前景,可以应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过利用大量的人类演示数据,可以显著降低机器人学习的成本,提高机器人的智能化水平。此外,该方法还可以应用于虚拟现实、增强现实等领域,实现人机协作和远程控制。
📄 摘要(原文)
Human videos can be recorded quickly and at scale, making them an appealing source of training data for robot learning. However, humans and robots differ fundamentally in embodiment, resulting in mismatched action execution. Direct kinematic retargeting of human hand motion can therefore produce actions that are physically infeasible for robots. Despite these low-level differences, human demonstrations provide valuable motion cues about how to manipulate and interact with objects. Our key idea is to exploit the forward diffusion process: as noise is added to actions, low-level execution differences fade while high-level task guidance is preserved. We present X-Diffusion, a principled framework for training diffusion policies that maximally leverages human data without learning dynamically infeasible motions. X-Diffusion first trains a classifier to predict whether a noisy action is executed by a human or robot. Then, a human action is incorporated into policy training only after adding sufficient noise such that the classifier cannot discern its embodiment. Actions consistent with robot execution supervise fine-grained denoising at low noise levels, while mismatched human actions provide only coarse guidance at higher noise levels. Our experiments show that naive co-training under execution mismatches degrades policy performance, while X-Diffusion consistently improves it. Across five manipulation tasks, X-Diffusion achieves a 16% higher average success rate than the best baseline. The project website is available at https://portal-cornell.github.io/X-Diffusion/.