One-Shot Imitation under Mismatched Execution

作者: Kushal Kedia, Prithwish Dan, Angela Chao, Maximus Adrian Pace, Sanjiban Choudhury

分类: cs.RO, cs.AI, cs.LG

发布日期: 2024-09-10 (更新: 2025-03-28)

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

RHyME：通过序列级最优传输，实现跨具身单样本模仿学习

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱七：动作重定向 (Motion Retargeting)

关键词: 模仿学习 跨具身 最优传输 序列匹配 机器人控制

📋 核心要点

现有模仿学习方法在处理人类与机器人之间执行差异时，依赖配对数据或视觉相似性，存在扩展性差和鲁棒性不足的问题。
RHyME框架通过序列级最优传输自动配对人类和机器人轨迹，并合成语义等价的人类视频，从而实现无需配对数据的策略训练。
实验结果表明，RHyME在跨具身模仿学习任务中显著优于现有方法，任务成功率提升超过50%，验证了其有效性。

📝 摘要（中文）

本文提出RHyME，一个新颖的框架，旨在解决由于运动风格和物理能力不匹配导致的执行差异下，机器人单样本模仿学习问题。现有方法依赖配对数据或帧级别视觉相似性，难以扩展且鲁棒性差。RHyME利用序列级别的最优传输代价函数自动配对人类和机器人轨迹。给定长时程机器人演示，RHyME通过检索和组合短时程人类片段，合成语义等价的人类视频。这种方法无需配对数据即可有效训练策略。在模拟和真实人类手部实验中，RHyME成功模仿了一系列跨具身演示者，任务成功率比现有方法提高了50%以上。代码和数据集已开源。

🔬 方法详解

问题定义：现有的模仿学习方法在处理人类和机器人之间由于运动风格和物理能力差异造成的执行不匹配问题时，面临着挑战。这些方法通常依赖于配对的人类-机器人数据，但获取此类数据成本高昂且难以扩展。另一种方法是依赖帧级别的视觉相似性，但这种方法在实际应用中容易失效，因为人类和机器人的视角、动作执行方式等存在差异。因此，如何在没有配对数据的情况下，实现鲁棒的跨具身模仿学习是一个关键问题。

核心思路：RHyME的核心思路是利用序列级别的最优传输（Optimal Transport）来自动建立人类和机器人轨迹之间的对应关系。通过将长时程的机器人演示分解为多个短时程的片段，并在人类视频库中检索语义上相似的片段，RHyME能够合成与机器人演示相对应的虚拟人类演示。这种方法避免了对配对数据的依赖，并且能够更好地处理人类和机器人之间的执行差异。

技术框架：RHyME框架主要包含以下几个阶段：1) 机器人演示收集：收集长时程的机器人演示轨迹。2) 人类视频库构建：构建包含大量短时程人类动作片段的视频库。3) 序列匹配与合成：利用序列级别的最优传输代价函数，在人类视频库中检索与机器人演示片段语义上相似的片段，并将这些片段组合成一个虚拟的人类演示视频。4) 策略训练：利用合成的人类演示视频训练模仿学习策略，使机器人能够模仿人类的动作。

关键创新：RHyME的关键创新在于使用序列级别的最优传输来自动配对人类和机器人轨迹。与传统的基于帧级别视觉相似性的方法相比，序列级别的最优传输能够更好地捕捉动作的整体语义信息，从而更鲁棒地处理人类和机器人之间的执行差异。此外，RHyME通过合成虚拟的人类演示视频，避免了对配对数据的依赖，大大降低了数据收集的成本。

关键设计：RHyME使用动态时间规整（Dynamic Time Warping, DTW）作为序列级别最优传输的代价函数，用于衡量机器人演示片段和人类视频片段之间的相似度。此外，RHyME还设计了一种基于Transformer的视频编码器，用于提取人类视频片段的特征表示。在策略训练阶段，RHyME使用行为克隆（Behavior Cloning）算法，利用合成的人类演示视频训练机器人策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RHyME在模拟和真实人类手部实验中，成功模仿了一系列跨具身演示者，任务成功率比现有方法提高了50%以上。这表明RHyME能够有效地处理人类和机器人之间的执行差异，并且具有良好的泛化能力。此外，实验还验证了RHyME在不同任务和不同机器人平台上的适用性。

🎯 应用场景

RHyME框架具有广泛的应用前景，例如可以用于机器人辅助教学、远程操作、康复训练等领域。通过模仿人类的动作，机器人可以更好地完成各种任务，提高工作效率和安全性。此外，RHyME还可以用于生成逼真的人类动作视频，例如用于游戏开发、电影制作等领域。该研究的未来影响在于推动机器人更加智能、灵活地与人类协作。

📄 摘要（原文）

Human demonstrations as prompts are a powerful way to program robots to do long-horizon manipulation tasks. However, translating these demonstrations into robot-executable actions presents significant challenges due to execution mismatches in movement styles and physical capabilities. Existing methods for human-robot translation either depend on paired data, which is infeasible to scale, or rely heavily on frame-level visual similarities that often break down in practice. To address these challenges, we propose RHyME, a novel framework that automatically pairs human and robot trajectories using sequence-level optimal transport cost functions. Given long-horizon robot demonstrations, RHyME synthesizes semantically equivalent human videos by retrieving and composing short-horizon human clips. This approach facilitates effective policy training without the need for paired data. RHyME successfully imitates a range of cross-embodiment demonstrators, both in simulation and with a real human hand, achieving over 50% increase in task success compared to previous methods. We release our code and datasets at https://portal-cornell.github.io/rhyme/.

One-Shot Imitation under Mismatched Execution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理