Hand-centric Human-to-Robot Trajectory Transfer from Video Demonstrations via Open-World Contact Localization
作者: Yitian Shi, Di Wen, Zhengqi Han, Zicheng Guo, Yu Hu, Edgar Welte, Kunyu Peng, Rainer Stiefelhagen, Rania Rayyes
分类: cs.RO
发布日期: 2026-06-09
💡 一句话要点
提出HOWTransfer以解决人类视频演示中的轨迹转移问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting)
关键词: 轨迹转移 手-物体交互 机器人运动生成 多模态抓取 开放世界学习
📋 核心要点
- 现有方法在处理人类视频演示时,面临手-物体交互噪声、未见物体的部分观察及跨形态差异等挑战。
- 本文提出的HOWTransfer框架通过观察手-物体交互线索,恢复3D手部运动并进行接触定位,进而生成机器人可执行的轨迹。
- 实验结果显示,HOWTransfer在多种操作任务中实现了86%的成功率,且在用户偏好上优于传统遥控轨迹。
📝 摘要(中文)
学习人类视频演示中的轨迹转移面临诸多挑战,如噪声干扰的手-物体交互、未见物体的部分观察以及跨形态差异等。为此,本文提出了HOWTransfer(手-物体开放世界转移)框架,该框架通过观察手-物体交互线索,恢复时间一致的3D手部运动并定位接触时间间隔。接触起始点用于将人类抓取意图转化为多模态的平行夹持假设,并沿着恢复的手腕轨迹生成可执行的机器人动作。最后,通过轨迹编辑阶段优化接触对齐,从单一演示中生成多样的可执行变体。实验表明,HOWTransfer在多种操作任务中实现了86%的成功率,且在盲测偏好研究中优于遥控轨迹。
🔬 方法详解
问题定义:本文旨在解决从人类视频演示中提取机器人轨迹的困难,现有方法在处理手-物体交互时存在噪声干扰和未见物体的部分观察等问题,导致轨迹转移效果不佳。
核心思路:HOWTransfer框架通过分析手-物体交互线索,恢复时间一致的3D手部运动,并定位接触时间间隔,从而实现对人类抓取意图的有效转化。
技术框架:该框架包括三个主要模块:首先,通过观察手-物体交互线索恢复3D手部运动;其次,定位接触时间间隔并生成多模态抓取假设;最后,通过轨迹编辑优化接触对齐,生成多样的可执行轨迹。
关键创新:HOWTransfer的创新之处在于其不依赖于物体特定描述、视觉-语言查询或显式的物体状态跟踪,而是通过手-物体交互线索进行推理,显著提高了轨迹转移的准确性和多样性。
关键设计:在设计中,关键参数包括接触定位的算法和多模态抓取假设的生成策略,损失函数则考虑了接触对齐和轨迹一致性,以确保生成的轨迹能够真实反映人类的抓取意图。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HOWTransfer在多种操作任务中实现了86%的成功率,显著优于传统的遥控轨迹,且在盲测偏好研究中获得了用户的更高认可,展示了其在机器人运动生成中的有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括人机协作、机器人自动化操作和智能家居等。通过实现更自然的轨迹转移,HOWTransfer可以提升机器人在复杂环境中的操作能力,进而推动智能机器人在实际应用中的普及与发展。
📄 摘要(原文)
Learning from human video demonstrations remains challenging due to noisy hand-object interactions, unseen objects with partial observation, and cross-embodiment discrepancy. To address these challenges, we present \textit{HOWTransfer} (\emph{H}and-\emph{O}bject \emph{O}pen-\emph{W}orld Transfer), a hand-centric framework that distills human demonstrations into contact-aware, taxonomy-informed, and diverse robotic trajectories. Instead of relying on object-specific descriptions, vision-language queries, or explicit object-state tracking, \emph{HOWTransfer} recovers temporally consistent 3D hand motion and localizes temporal contact intervals by reasoning over observed hand-object interaction cues. The localized contact onsets are then used to retarget human grasp intent into multi-modal parallel-jaw grasp hypotheses, which are propagated along the recovered wrist trajectory to generate robot-executable motions. Finally, a trajectory editing stage refines contact alignment and produces diverse executable variants from a single demonstration. Experiments across diverse manipulation tasks show that \emph{HOWTransfer} enables accurate contact localization and high-quality robot motion retargeting with $86\%$ success, which is preferred over teleoperated trajectories in a blinded preference study.