DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies

📄 arXiv: 2505.07813v1 📥 PDF

作者: Tony Tao, Mohan Kumar Srirama, Jason Jingzhou Liu, Kenneth Shaw, Deepak Pathak

分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY

发布日期: 2025-05-12

备注: In RSS 2025. Website at https://dexwild.github.io


💡 一句话要点

DexWild:利用人手交互数据提升机器人泛化操作能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)

关键词: 机器人操作 人手交互 数据收集 泛化能力 联合训练

📋 核心要点

  1. 现有机器人数据集规模受限,难以泛化到新环境,远程操作成本高昂,限制了数据收集的规模。
  2. DexWild利用人手交互数据,通过低成本设备收集大规模、多样化的交互数据,并结合机器人数据进行联合训练。
  3. 实验表明,DexWild显著提升了机器人操作的泛化能力,在未见环境中的成功率提升至68.5%,跨形态泛化能力提升5.8倍。

📝 摘要(中文)

大规模、多样化的机器人数据集是实现灵巧操作策略泛化到新环境的有希望的途径,但获取此类数据集面临诸多挑战。远程操作虽然能提供高保真数据,但其高成本限制了可扩展性。DexWild提出了一种新方法,允许人们像日常生活中一样用自己的双手来收集数据。DexWild由一个多样化的数据收集团队组成,他们在多种环境和物体上收集了数小时的交互数据。为了记录这些数据,我们创建了DexWild-System,一种低成本、移动且易于使用的设备。DexWild学习框架共同训练人类和机器人演示数据,与单独训练每个数据集相比,性能有所提高。这种组合产生了强大的机器人策略,能够以最少的机器人特定数据泛化到新的环境、任务和形态。实验结果表明,DexWild显著提高了性能,在未见过的环境中实现了68.5%的成功率,几乎是仅使用机器人数据训练的策略的四倍,并提供了5.8倍更好的跨形态泛化能力。

🔬 方法详解

问题定义:现有机器人操作策略依赖于大规模数据集进行训练,但获取足够规模且多样化的数据集面临挑战。远程操作虽然精度高,但成本高昂,难以扩展。因此,如何低成本、高效地收集多样化的机器人操作数据,并提升机器人策略的泛化能力,是本文要解决的核心问题。

核心思路:本文的核心思路是利用人类的双手进行数据收集。人类在日常生活中积累了丰富的操作经验,通过记录人类的双手与物体交互的数据,可以为机器人提供更自然、更丰富的训练数据。同时,结合机器人自身的数据进行联合训练,可以进一步提升策略的泛化能力。

技术框架:DexWild框架主要包含两个部分:数据收集系统DexWild-System和学习框架。DexWild-System是一个低成本、移动且易于使用的设备,用于记录人类的双手与物体交互的数据。学习框架则将人类数据和机器人数据结合起来进行联合训练,从而提升机器人策略的泛化能力。具体流程包括:1) 使用DexWild-System收集人手交互数据;2) 将人手交互数据与机器人数据进行预处理;3) 使用联合训练策略训练机器人操作策略;4) 在真实机器人上进行测试和评估。

关键创新:本文最重要的技术创新点在于利用人手交互数据来提升机器人操作策略的泛化能力。与传统的仅使用机器人数据进行训练的方法相比,本文的方法可以利用人类丰富的操作经验,为机器人提供更自然、更丰富的训练数据。此外,本文还提出了一个低成本、易于使用的数据收集系统DexWild-System,使得大规模收集人手交互数据成为可能。

关键设计:DexWild-System的关键设计包括:低成本的硬件设备,易于使用的软件界面,以及灵活的安装方式。学习框架的关键设计包括:数据预处理方法,联合训练策略,以及合适的网络结构。具体的参数设置和损失函数等细节在论文中进行了详细描述(具体数值未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DexWild在未见过的环境中实现了68.5%的成功率,几乎是仅使用机器人数据训练的策略的四倍。此外,DexWild还提供了5.8倍更好的跨形态泛化能力,表明该方法能够有效地提升机器人操作策略的泛化能力。这些实验结果充分证明了DexWild的有效性和优越性。

🎯 应用场景

DexWild的研究成果可以应用于各种需要机器人进行灵巧操作的场景,例如家庭服务、工业自动化、医疗辅助等。通过利用人手交互数据,可以显著降低机器人部署的成本和难度,提高机器人的智能化水平和服务质量。未来,该技术有望推动机器人技术在更广泛的领域得到应用。

📄 摘要(原文)

Large-scale, diverse robot datasets have emerged as a promising path toward enabling dexterous manipulation policies to generalize to novel environments, but acquiring such datasets presents many challenges. While teleoperation provides high-fidelity datasets, its high cost limits its scalability. Instead, what if people could use their own hands, just as they do in everyday life, to collect data? In DexWild, a diverse team of data collectors uses their hands to collect hours of interactions across a multitude of environments and objects. To record this data, we create DexWild-System, a low-cost, mobile, and easy-to-use device. The DexWild learning framework co-trains on both human and robot demonstrations, leading to improved performance compared to training on each dataset individually. This combination results in robust robot policies capable of generalizing to novel environments, tasks, and embodiments with minimal additional robot-specific data. Experimental results demonstrate that DexWild significantly improves performance, achieving a 68.5% success rate in unseen environments-nearly four times higher than policies trained with robot data only-and offering 5.8x better cross-embodiment generalization. Video results, codebases, and instructions at https://dexwild.github.io