World In Your Hands: A Large-Scale and Open-source Ecosystem for Learning Human-centric Manipulation in the Wild

📄 arXiv: 2512.24310v2 📥 PDF

作者: TARS Robotics, Yupeng Zheng, Jichao Peng, Weize Li, Yuhang Zheng, Xiang Li, Yujie Jin, Julong Wei, Guanhua Zhang, Ruiling Zheng, Ming Cao, Songen Gu, Zhenhong Zou, Kaige Li, Ke Wu, Mingmin Yang, Jiahao Liu, Pengfei Li, Hengjie Si, Feiyu Zhu, Wang Fu, Likun Wang, Ruiwen Yao, Jieru Zhao, Yilun Chen, Wenchao Ding

分类: cs.RO

发布日期: 2025-12-30 (更新: 2026-01-01)

备注: This dataset represents the first large-scale collection of real-world, human-centric multimodal data integrating vision, language, tactile sensing, and action (VLTA)


💡 一句话要点

提出WiYH大规模开放生态系统,用于学习以人为中心的野外操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧手操作 人机协作 数据集 机器人学习 多模态数据 可穿戴设备 自动标注

📋 核心要点

  1. 现有灵巧手操作数据规模和多样性不足,限制了策略的泛化能力,且场景单一、模态未对齐。
  2. WiYH通过可穿戴设备Oracle Suite收集大规模多模态数据,并提供自动标注流程,构建以人为中心的操作学习生态。
  3. 实验表明,利用WiYH数据能显著提升灵巧手策略在桌面操作任务中的泛化性和鲁棒性。

📝 摘要(中文)

大规模预训练是语言和视觉模型泛化的基础,但灵巧手部操作的数据在规模和多样性上仍然有限,阻碍了策略泛化。当前的人工操作数据集存在场景多样性有限、模态未对齐以及基准测试不足等问题。为了解决这些差距,我们推出了World In Your Hands (WiYH),这是一个大规模的开源生态系统,用于以人为中心的操作学习。WiYH包括:(1)Oracle Suite,一个可穿戴数据收集工具包,带有用于精确运动捕捉的自动标注流程;(2)WiYH数据集,包含超过1000小时的多模态操作数据,涵盖数百种技能,场景多样,均来自真实世界;(3)广泛的注释和基准,支持从感知到动作的任务。此外,基于WiYH生态系统的实验表明,集成WiYH的以人为中心的数据显著提高了灵巧手部策略在桌面操作任务中的泛化性和鲁棒性。我们相信World In Your Hands将为社区带来对以人为中心的数据收集和策略学习的新见解。

🔬 方法详解

问题定义:现有灵巧手操作数据集规模小、多样性不足,且存在模态未对齐问题,导致训练出的策略泛化能力差,难以应用于真实世界场景。缺乏统一的基准测试也阻碍了算法的比较和进步。

核心思路:通过构建一个大规模、多样化的数据集,并提供相应的工具和基准测试,来促进以人为中心的灵巧手操作学习。核心在于模拟真实世界的操作场景,并利用可穿戴设备和自动标注流程降低数据收集和标注的成本。

技术框架:WiYH生态系统主要包含三个部分:Oracle Suite(数据采集工具包)、WiYH Dataset(数据集)和 Benchmarks(基准测试)。Oracle Suite负责收集多模态数据,包括视觉、触觉和运动数据;WiYH Dataset存储了超过1000小时的真实世界操作数据;Benchmarks提供了一系列任务和评估指标,用于评估算法的性能。

关键创新:WiYH的关键创新在于其以人为中心的数据收集方法和大规模的数据集。通过可穿戴设备,可以捕捉到更加自然和真实的 human-centric 操作数据。同时,自动标注流程大大降低了数据标注的成本,使得构建大规模数据集成为可能。

关键设计:Oracle Suite包含多种传感器,用于捕捉手部运动、视觉信息和触觉反馈。自动标注流程利用运动捕捉数据和视觉数据,自动生成手部姿态、物体位置等标注信息。数据集包含多种操作任务,例如抓取、放置、组装等。基准测试提供了一系列评估指标,例如成功率、完成时间等。

📊 实验亮点

实验结果表明,使用WiYH数据集训练的灵巧手策略在桌面操作任务中取得了显著的性能提升。与使用其他数据集训练的策略相比,WiYH策略在泛化性和鲁棒性方面均有明显优势。具体性能数据未知,但论文强调了WiYH数据对提升策略性能的积极作用。

🎯 应用场景

该研究成果可广泛应用于机器人灵巧操作、人机协作、虚拟现实和增强现实等领域。例如,可以利用WiYH数据集训练机器人完成复杂的装配任务,或者开发更加自然和智能的人机交互界面。未来,WiYH有望推动机器人技术在工业、医疗、服务等领域的应用。

📄 摘要(原文)

Large-scale pre-training is fundamental for generalization in language and vision models, but data for dexterous hand manipulation remains limited in scale and diversity, hindering policy generalization. Limited scenario diversity, misaligned modalities, and insufficient benchmarking constrain current human manipulation datasets. To address these gaps, we introduce World In Your Hands (WiYH), a large-scale open-source ecosystem for human-centric manipulation learning. WiYH includes (1) the Oracle Suite, a wearable data collection kit with an auto-labeling pipeline for accurate motion capture; (2) the WiYH Dataset, featuring over 1,000 hours of multi-modal manipulation data across hundreds of skills in diverse real-world scenarios; and (3) extensive annotations and benchmarks supporting tasks from perception to action. Furthermore, experiments based on the WiYH ecosystem show that integrating WiYH's human-centric data significantly enhances the generalization and robustness of dexterous hand policies in tabletop manipulation tasks. We believe that World In Your Hands will bring new insights into human-centric data collection and policy learning to the community.