DexCanvas: Bridging Human Demonstrations and Robot Learning for Dexterous Manipulation
作者: Xinyue Xu, Jieqiang Sun, Jing, Dai, Siyuan Chen, Lanjie Ma, Ke Sun, Bin Zhao, Jianbo Yuan, Sheng Yi, Haohua Zhu, Yiwen Lu
分类: cs.RO, cs.LG
发布日期: 2025-10-17 (更新: 2025-10-23)
💡 一句话要点
DexCanvas:桥接人类演示与机器人学习的灵巧操作数据集
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 灵巧操作 机器人学习 数据集 强化学习 接触控制 技能迁移 物理模拟
📋 核心要点
- 现有机器人灵巧操作数据集规模有限,难以覆盖丰富的操作技能,且缺乏精确的接触信息。
- DexCanvas通过强化学习,从真实人类演示中学习控制策略,并在模拟环境中生成大量数据,同时推断接触力和手部姿态。
- 该数据集包含大规模的真实和合成数据,涵盖多种操作技能,并提供物理验证的接触信息,为机器人操作学习提供有力支持。
📝 摘要(中文)
本文提出了DexCanvas,一个大规模混合真实-合成的人类操作数据集,包含7000小时的灵巧手部-物体交互数据,这些数据源于70小时的真实人类演示,并根据Cutkosky分类法组织成21种基本操作类型。每个条目都结合了同步的多视角RGB-D数据、高精度运动捕捉与MANO手部参数,以及具有物理一致性力分布的每帧接触点。我们的真实到模拟的流程使用强化学习来训练策略,该策略控制物理模拟中驱动的MANO手,重现人类演示,同时发现产生观察到的物体运动的潜在接触力。DexCanvas是第一个结合大规模真实演示、基于已建立分类法的系统技能覆盖和物理验证的接触注释的操作数据集。该数据集可以促进机器人操作学习、富接触控制以及跨不同手部形态的技能迁移方面的研究。
🔬 方法详解
问题定义:现有的机器人灵巧操作数据集通常规模较小,难以覆盖各种操作技能。此外,这些数据集往往缺乏精确的接触信息,而接触信息对于理解和复现灵巧操作至关重要。因此,如何构建一个大规模、包含丰富操作技能和精确接触信息的数据集,是机器人灵巧操作学习面临的关键问题。
核心思路:论文的核心思路是利用真实人类演示作为种子,通过强化学习训练一个能够在物理模拟环境中重现这些演示的策略。该策略不仅能够控制虚拟手部完成操作,还能推断出产生观察到的物体运动的潜在接触力。通过这种方式,可以从有限的真实数据中生成大量的合成数据,从而扩展数据集的规模和多样性。
技术框架:DexCanvas的整体框架包含以下几个主要阶段:1) 数据采集:收集真实人类演示数据,包括多视角RGB-D图像、高精度运动捕捉数据和手部参数。2) 策略训练:使用强化学习训练一个控制虚拟MANO手的策略,该策略能够重现真实人类演示。3) 数据生成:利用训练好的策略在物理模拟环境中生成大量合成数据,包括手部姿态、物体运动和接触力。4) 数据标注:对生成的数据进行标注,包括接触点、力分布等信息。
关键创新:DexCanvas的关键创新在于其真实到模拟的流程,该流程能够从有限的真实数据中生成大量的合成数据,同时保证数据的物理一致性。此外,该数据集还结合了大规模真实演示、基于已建立分类法的系统技能覆盖和物理验证的接触注释,使其成为一个独特而有价值的资源。
关键设计:在策略训练阶段,论文使用了强化学习算法来优化控制虚拟MANO手的策略。具体来说,论文使用了Actor-Critic算法,其中Actor网络负责生成手部动作,Critic网络负责评估动作的质量。为了保证数据的物理一致性,论文还引入了物理引擎来模拟手部和物体之间的交互。此外,论文还设计了一种损失函数,用于鼓励策略重现真实人类演示。
📊 实验亮点
DexCanvas数据集包含7000小时的灵巧手部-物体交互数据,源于70小时的真实人类演示。该数据集涵盖21种基本操作类型,并提供同步的多视角RGB-D数据、高精度运动捕捉数据和物理验证的接触注释。实验表明,利用DexCanvas数据集训练的机器人策略能够有效地完成各种灵巧操作任务,并在一定程度上实现了跨不同手部形态的技能迁移。
🎯 应用场景
DexCanvas数据集可广泛应用于机器人灵巧操作学习、富接触控制、技能迁移等领域。例如,可以利用该数据集训练机器人完成各种复杂的操作任务,如装配、抓取、操作工具等。此外,该数据集还可以用于研究不同手部形态之间的技能迁移,从而提高机器人的通用性和适应性。未来,该数据集有望推动机器人技术在工业、医疗、服务等领域的应用。
📄 摘要(原文)
We present DexCanvas, a large-scale hybrid real-synthetic human manipulation dataset containing 7,000 hours of dexterous hand-object interactions seeded from 70 hours of real human demonstrations, organized across 21 fundamental manipulation types based on the Cutkosky taxonomy. Each entry combines synchronized multi-view RGB-D, high-precision mocap with MANO hand parameters, and per-frame contact points with physically consistent force profiles. Our real-to-sim pipeline uses reinforcement learning to train policies that control an actuated MANO hand in physics simulation, reproducing human demonstrations while discovering the underlying contact forces that generate the observed object motion. DexCanvas is the first manipulation dataset to combine large-scale real demonstrations, systematic skill coverage based on established taxonomies, and physics-validated contact annotations. The dataset can facilitate research in robotic manipulation learning, contact-rich control, and skill transfer across different hand morphologies.