Dexterous Point Policy: Learning Point-based Dexterous Hand Policies from Human Demonstrations

📄 arXiv: 2606.10614v1 📥 PDF

作者: Beomjun Kim, Seong Hyeon Park, Seunghoon Sim, Seungjun Moon, Sanghyeok Lee, Jinwoo Shin

分类: cs.RO, cs.CV, cs.LG

发布日期: 2026-06-09


💡 一句话要点

提出Dexterous Point Policy以解决机器人示范数据不足问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 3D关键点 自回归变换器 机器人学习 人类示范 策略转移 数据效率

📋 核心要点

  1. 现有方法在灵巧操作中依赖于昂贵且耗时的机器人示范,导致数据收集效率低下。
  2. 本文提出Dexterous Point Policy,通过从人类视频中学习灵巧操作策略,消除对机器人示范的依赖。
  3. 在真实机器人任务中,Dexterous Point Policy成功率达到75.0%,显著优于1.0%的VLA基线,并且在新场景中表现出良好的泛化能力。

📝 摘要(中文)

基于人类示范视频预训练的机器人基础模型展现出良好前景,但在实际机器人部署时存在显著的体现差距。传统方法通常需要在机器人特定示范上进行微调,但收集机器人数据既昂贵又耗时,尤其是在灵巧操作中。为此,本文提出了Dexterous Point Policy框架,直接从人类视频中学习灵巧操作策略,无需机器人示范。我们通过提取任务相关物体和人手的3D关键点,并在这些关键点上训练自回归变换器,发现人类与机器人在关键点层面(如手腕和指尖)的行为高度一致,从而实现策略的直接转移。在一系列真实机器人任务中,Dexterous Point Policy的成功率达到75.0%,而最先进的VLA基线仅为1.0%。此外,该方法在未见场景中也表现出强大的泛化能力。

🔬 方法详解

问题定义:本文旨在解决现有灵巧操作策略学习中对机器人示范数据的依赖问题。传统方法在数据收集上成本高且耗时,尤其是在多指手的操作任务中。

核心思路:论文的核心思路是利用统一的3D关键点表示来连接人类与机器人之间的体现,直接从人类视频中学习操作策略,而无需机器人示范。

技术框架:整体架构包括三个主要模块:首先,从原始视频中提取任务相关物体和人手的3D关键点;其次,使用自回归变换器对这些关键点进行训练;最后,通过关键点层面的行为对齐实现策略转移。

关键创新:最重要的技术创新在于提出了一种无须机器人示范的学习框架,利用3D关键点表示实现了人类与机器人行为的直接对齐,显著提高了策略转移的有效性。

关键设计:在技术细节上,关键点的提取依赖于高精度的计算机视觉算法,损失函数设计为关注关键点之间的相对位置关系,网络结构采用自回归变换器以捕捉时序信息。整体设计旨在最大化人类与机器人在操作行为上的一致性。

📊 实验亮点

实验结果表明,Dexterous Point Policy在真实机器人任务中的成功率达到75.0%,而对比基线VLA仅为1.0%,显示出显著的性能提升。此外,该方法在未见场景中也展现出强大的泛化能力,能够适应多物体环境和新物体类别。

🎯 应用场景

该研究的潜在应用领域包括服务机器人、医疗机器人以及工业自动化等,能够有效提升机器人在复杂环境中的操作能力。通过减少对机器人示范的依赖,降低了数据收集成本,促进了灵巧操作技术的普及与应用。未来,该方法可能推动更广泛的机器人自主学习与适应能力的发展。

📄 摘要(原文)

Robotic foundation models pre-trained on human demonstration videos have shown promise, but a significant embodiment gap remains when the resulting policies are deployed on real robots. A common remedy is to fine-tune these models on robot-specific demonstrations. However, robot data collection can be prohibitively expensive and time-consuming, which is particularly acute in dexterous manipulation, e.g., teleoperating a multi-fingered hand for even a single atomic task can take days. To address this, we introduce Dexterous Point Policy, a framework that learns dexterous manipulation policies directly from human videos and requires no robot demonstrations. Our core insight is that a unified 3D keypoint representation can bridge human and robot embodiments when used for both observations and actions. Specifically, we extract 3D keypoints of task-relevant objects and human hands from raw videos, and train an autoregressive transformer over these keypoints. We observe that at the keypoint level, specifically the wrist and fingertips, human and robot behaviors closely align, enabling direct policy transfer. On a suite of real-robot tasks spanning pick-and-place and tool use, Dexterous Point Policy attains 75.0% success, whereas a state-of-the-art VLA baseline reaches only 1.0%. Furthermore, our method generalizes strongly to unseen scenarios, including multi-object environments and novel object categories.