RoboWheel: A Data Engine from Real-World Human Demonstrations for Cross-Embodiment Robotic Learning
作者: Yuhong Zhang, Zihan Gao, Shengpeng Li, Ling-Hao Chen, Kaisheng Liu, Runqing Cheng, Xiao Lin, Junjia Liu, Zhuoheng Li, Jingyi Feng, Ziyan He, Jintian Lin, Zheyan Huang, Zhifang Liu, Haoqian Wang
分类: cs.RO
发布日期: 2025-12-02
备注: 27 Pages, 21 figures
💡 一句话要点
RoboWheel:利用真实人类演示数据驱动跨形态机器人学习的数据引擎
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人学习 模仿学习 强化学习 手部物体交互 HOI重建 轨迹重定向 跨形态学习 数据增强
📋 核心要点
- 现有机器人学习方法依赖昂贵的远程操作数据,缺乏通用性和泛化能力,难以适应不同机器人形态。
- RoboWheel通过HOI视频重建、物理约束优化和轨迹重定向,将人类操作转化为跨形态机器人可执行的动作。
- 实验表明,RoboWheel生成的数据与远程操作数据性能相当,证明了HOI作为机器人学习监督信号的有效性。
📝 摘要(中文)
本文介绍RoboWheel,一个数据引擎,可以将人类手部物体交互(HOI)视频转换为可用于跨形态机器人学习的训练监督信号。从单目RGB或RGB-D输入开始,我们执行高精度HOI重建,并通过强化学习(RL)优化器强制执行物理合理性,该优化器在接触和穿透约束下细化手部物体相对姿势。然后,将重建的、富含接触的轨迹重新定向到不同的机器人形态,包括带有简单末端执行器的机械臂、灵巧手和人形机器人,从而产生可执行的动作和轨迹。为了扩大覆盖范围,我们在Isaac Sim上构建了一个模拟增强框架,该框架具有多样化的领域随机化(形态、轨迹、物体检索、背景纹理、手部运动镜像),从而丰富了轨迹和观察的分布,同时保留了空间关系和物理合理性。整个数据管道形成了一个从视频到重建、重定向、增强数据获取的端到端流程。我们在主流视觉语言动作(VLA)和模仿学习架构上验证了这些数据,证明了我们的管道产生的轨迹与远程操作产生的轨迹一样稳定,并产生了相当的持续性能提升。据我们所知,这提供了第一个定量证据,表明HOI模态可以作为机器人学习的有效监督。与远程操作相比,RoboWheel是轻量级的,单个单目RGB(D)相机足以提取通用的、与形态无关的运动表示,可以灵活地在不同形态之间重新定向。我们进一步组装了一个大规模多模态数据集,结合了多相机捕获、单目视频和公共HOI语料库,用于训练和评估具身模型。
🔬 方法详解
问题定义:现有机器人学习方法,特别是模仿学习和强化学习,通常依赖于人工远程操作或模拟数据。远程操作数据获取成本高昂,且难以泛化到不同的机器人形态和环境。模拟数据虽然成本较低,但存在真实感不足的问题,导致“模拟到真实”的差距。因此,如何高效地获取高质量、可泛化的机器人训练数据是一个关键问题。
核心思路:RoboWheel的核心思路是从人类手部物体交互(HOI)视频中提取运动信息,并将其转化为机器人可执行的动作。人类的HOI视频蕴含了丰富的操作知识,且易于获取。通过重建HOI场景、施加物理约束和进行轨迹重定向,可以将人类的动作迁移到不同的机器人形态上,从而实现跨形态的机器人学习。这种方法避免了直接依赖远程操作或模拟数据,降低了数据获取成本,并提高了模型的泛化能力。
技术框架:RoboWheel的整体框架包括以下几个主要模块:1) HOI重建:从单目RGB或RGB-D视频中重建人类手部和物体的3D姿态。2) 物理约束优化:利用强化学习优化器,在接触和穿透约束下细化手部和物体的相对姿态,保证物理合理性。3) 轨迹重定向:将重建的轨迹重定向到不同的机器人形态,包括机械臂、灵巧手和人形机器人。4) 模拟增强:在Isaac Sim中进行模拟增强,通过领域随机化(形态、轨迹、物体检索、背景纹理、手部运动镜像)来丰富数据分布。整个流程形成一个端到端的pipeline,从视频输入到机器人可执行的动作输出。
关键创新:RoboWheel的关键创新在于利用HOI视频作为机器人学习的监督信号,并提出了一套完整的HOI重建、物理约束优化和轨迹重定向方法。与传统的远程操作或模拟数据相比,HOI视频更易于获取,且蕴含了丰富的操作知识。通过物理约束优化,可以保证重建轨迹的物理合理性,避免了不自然的动作。通过轨迹重定向,可以将人类的动作迁移到不同的机器人形态上,实现跨形态的机器人学习。
关键设计:在HOI重建方面,可能采用了先进的3D人体姿态估计和物体姿态估计方法。在物理约束优化方面,强化学习优化器的奖励函数可能包括接触奖励、穿透惩罚和动作平滑性奖励。在轨迹重定向方面,可能采用了逆运动学或运动规划算法,将人类的动作映射到机器人的关节空间。模拟增强方面,领域随机化的参数范围和分布需要仔细设计,以保证数据的多样性和真实性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RoboWheel生成的数据在视觉语言动作(VLA)和模仿学习任务上表现出色,与远程操作数据性能相当。具体而言,使用RoboWheel数据训练的模型在持续学习任务上取得了可比的性能提升,证明了HOI数据作为机器人学习监督信号的有效性。此外,该论文还构建了一个大规模多模态数据集,为未来的研究提供了宝贵资源。
🎯 应用场景
RoboWheel具有广泛的应用前景,可用于各种机器人操作任务,如装配、抓取、操作工具等。该技术可以降低机器人学习的数据获取成本,提高模型的泛化能力,加速机器人在制造业、服务业等领域的应用。未来,RoboWheel可以与视觉语言模型结合,实现更高级的机器人操作任务,例如根据自然语言指令完成复杂的操作。
📄 摘要(原文)
We introduce Robowheel, a data engine that converts human hand object interaction (HOI) videos into training-ready supervision for cross morphology robotic learning. From monocular RGB or RGB-D inputs, we perform high precision HOI reconstruction and enforce physical plausibility via a reinforcement learning (RL) optimizer that refines hand object relative poses under contact and penetration constraints. The reconstructed, contact rich trajectories are then retargeted to cross-embodiments, robot arms with simple end effectors, dexterous hands, and humanoids, yielding executable actions and rollouts. To scale coverage, we build a simulation-augmented framework on Isaac Sim with diverse domain randomization (embodiments, trajectories, object retrieval, background textures, hand motion mirroring), which enriches the distributions of trajectories and observations while preserving spatial relationships and physical plausibility. The entire data pipeline forms an end to end pipeline from video,reconstruction,retargeting,augmentation data acquisition. We validate the data on mainstream vision language action (VLA) and imitation learning architectures, demonstrating that trajectories produced by our pipeline are as stable as those from teleoperation and yield comparable continual performance gains. To our knowledge, this provides the first quantitative evidence that HOI modalities can serve as effective supervision for robotic learning. Compared with teleoperation, Robowheel is lightweight, a single monocular RGB(D) camera is sufficient to extract a universal, embodiment agnostic motion representation that could be flexibly retargeted across embodiments. We further assemble a large scale multimodal dataset combining multi-camera captures, monocular videos, and public HOI corpora for training and evaluating embodied models.