Hand-centric Human-to-Robot Trajectory Transfer from Video Demonstrations via Open-World Contact Localization

作者: Yitian Shi, Di Wen, Zhengqi Han, Zicheng Guo, Yu Hu, Edgar Welte, Kunyu Peng, Rainer Stiefelhagen, Rania Rayyes

分类: cs.RO

发布日期: 2026-06-09

💡 一句话要点

提出HOWTransfer以解决人类视频演示中的轨迹转移问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting)

关键词: 轨迹转移 手-物体交互 机器人运动生成 多模态抓取 开放世界学习

📋 核心要点

现有方法在处理人类视频演示时，面临手-物体交互噪声、未见物体的部分观察及跨形态差异等挑战。
本文提出的HOWTransfer框架通过观察手-物体交互线索，恢复3D手部运动并进行接触定位，进而生成机器人可执行的轨迹。
实验结果显示，HOWTransfer在多种操作任务中实现了86%的成功率，且在用户偏好上优于传统遥控轨迹。

📝 摘要（中文）

学习人类视频演示中的轨迹转移面临诸多挑战，如噪声干扰的手-物体交互、未见物体的部分观察以及跨形态差异等。为此，本文提出了HOWTransfer（手-物体开放世界转移）框架，该框架通过观察手-物体交互线索，恢复时间一致的3D手部运动并定位接触时间间隔。接触起始点用于将人类抓取意图转化为多模态的平行夹持假设，并沿着恢复的手腕轨迹生成可执行的机器人动作。最后，通过轨迹编辑阶段优化接触对齐，从单一演示中生成多样的可执行变体。实验表明，HOWTransfer在多种操作任务中实现了86%的成功率，且在盲测偏好研究中优于遥控轨迹。

🔬 方法详解

问题定义：本文旨在解决从人类视频演示中提取机器人轨迹的困难，现有方法在处理手-物体交互时存在噪声干扰和未见物体的部分观察等问题，导致轨迹转移效果不佳。

核心思路：HOWTransfer框架通过分析手-物体交互线索，恢复时间一致的3D手部运动，并定位接触时间间隔，从而实现对人类抓取意图的有效转化。

技术框架：该框架包括三个主要模块：首先，通过观察手-物体交互线索恢复3D手部运动；其次，定位接触时间间隔并生成多模态抓取假设；最后，通过轨迹编辑优化接触对齐，生成多样的可执行轨迹。

关键创新：HOWTransfer的创新之处在于其不依赖于物体特定描述、视觉-语言查询或显式的物体状态跟踪，而是通过手-物体交互线索进行推理，显著提高了轨迹转移的准确性和多样性。

关键设计：在设计中，关键参数包括接触定位的算法和多模态抓取假设的生成策略，损失函数则考虑了接触对齐和轨迹一致性，以确保生成的轨迹能够真实反映人类的抓取意图。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HOWTransfer在多种操作任务中实现了86%的成功率，显著优于传统的遥控轨迹，且在盲测偏好研究中获得了用户的更高认可，展示了其在机器人运动生成中的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括人机协作、机器人自动化操作和智能家居等。通过实现更自然的轨迹转移，HOWTransfer可以提升机器人在复杂环境中的操作能力，进而推动智能机器人在实际应用中的普及与发展。

📄 摘要（原文）

Learning from human video demonstrations remains challenging due to noisy hand-object interactions, unseen objects with partial observation, and cross-embodiment discrepancy. To address these challenges, we present \textit{HOWTransfer} (\emph{H}and-\emph{O}bject \emph{O}pen-\emph{W}orld Transfer), a hand-centric framework that distills human demonstrations into contact-aware, taxonomy-informed, and diverse robotic trajectories. Instead of relying on object-specific descriptions, vision-language queries, or explicit object-state tracking, \emph{HOWTransfer} recovers temporally consistent 3D hand motion and localizes temporal contact intervals by reasoning over observed hand-object interaction cues. The localized contact onsets are then used to retarget human grasp intent into multi-modal parallel-jaw grasp hypotheses, which are propagated along the recovered wrist trajectory to generate robot-executable motions. Finally, a trajectory editing stage refines contact alignment and produces diverse executable variants from a single demonstration. Experiments across diverse manipulation tasks show that \emph{HOWTransfer} enables accurate contact localization and high-quality robot motion retargeting with $86\%$ success, which is preferred over teleoperated trajectories in a blinded preference study.

Hand-centric Human-to-Robot Trajectory Transfer from Video Demonstrations via Open-World Contact Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理