Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

📄 arXiv: 2507.15597v1 📥 PDF

作者: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu

分类: cs.CV, cs.LG, cs.RO

发布日期: 2025-07-21

备注: 37 pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Being-H0:基于大规模人类视频的视觉-语言-动作预训练模型,提升灵巧操作能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 预训练 机器人操作 物理指令调优 手部运动生成 动作学习 大规模数据集

📋 核心要点

  1. 现有VLA模型在灵巧操作任务中表现不足,且泛化能力差,主要受限于合成数据与远程操作数据的质量和规模。
  2. Being-H0利用人类手部作为基础操作器,通过物理指令调优范式,结合大规模预训练、物理空间对齐和后训练适应来解决上述问题。
  3. 实验表明,Being-H0在手部运动生成和指令跟随方面表现出色,并能有效提升真实机器人操作的性能。

📝 摘要(中文)

本文提出Being-H0,一个基于大规模人类视频训练的灵巧视觉-语言-动作模型(VLA)。现有的VLA模型在需要高度灵巧性的复杂操作任务中表现不佳,并且泛化到新的场景和任务中的能力较差,这主要是因为它们依赖于具有显著sim-to-real差距的合成数据,或者缺乏规模和多样性的远程操作演示数据。为了解决这个数据瓶颈,我们提出利用人类手部作为基础操作器,利用网络数据中丰富的灵巧性和可扩展性。我们的方法以物理指令调优为中心,这是一种新颖的训练范式,它结合了来自人类视频的大规模VLA预训练、用于3D推理的物理空间对齐以及用于机器人任务的后训练适应。此外,我们引入了一种零件级运动标记化方法,该方法实现了毫米级的重建精度,以建模精确的手部轨迹以进行动作学习。为了支持我们提出的范式,我们进一步开发了一个全面的数据管理流程,该流程将包括运动捕捉、VR和仅RGB视频在内的异构来源集成到一个具有数百万个基于运动的指令实例的大规模数据集中。我们通过实验证明了Being-H0在手部运动生成和指令跟随方面的卓越性,并且它也可以随着模型和数据规模的扩大而良好地扩展。重要的是,我们观察到Being-H0在实际机器人操作中应用物理指令调优后所带来的预期收益。更多细节请访问https://beingbeyond.github.io/Being-H0。

🔬 方法详解

问题定义:现有视觉-语言-动作模型(VLA)在复杂操作任务中表现不佳,难以泛化到新场景。主要原因是训练数据不足,现有方法依赖于合成数据(存在sim-to-real差距)或小规模的远程操作数据,无法有效学习人类的灵巧操作技能。

核心思路:论文的核心思路是利用大规模的人类视频数据,将人类手部作为基础操作器,通过模仿学习的方式训练VLA模型。通过物理指令调优,将预训练模型与物理空间对齐,并进行后训练适应,从而提升模型在真实机器人操作任务中的性能。

技术框架:Being-H0的整体框架包含三个主要阶段:1) 大规模VLA预训练:利用包含大量人类手部操作的视频数据进行预训练,学习视觉、语言和动作之间的关系。2) 物理空间对齐:通过特定的损失函数或约束,将模型输出的动作与物理空间中的运动轨迹对齐,从而提升模型在3D空间中的推理能力。3) 后训练适应:针对特定的机器人操作任务,对预训练模型进行微调,使其适应真实环境和任务需求。

关键创新:论文的关键创新点在于:1) 提出了物理指令调优范式,将大规模预训练、物理空间对齐和后训练适应相结合,有效提升了VLA模型在真实机器人操作任务中的性能。2) 引入了一种零件级运动标记化方法,实现了毫米级的重建精度,能够更精确地建模手部轨迹。3) 构建了一个包含数百万个基于运动的指令实例的大规模数据集,为VLA模型的训练提供了充足的数据支持。

关键设计:论文的关键设计包括:1) 数据集构建:整合了运动捕捉、VR和RGB-only视频等多种异构数据源,构建了一个大规模的、多样化的数据集。2) 零件级运动标记化:将手部运动分解为多个零件的运动,并使用高精度的标记方法进行标注。3) 物理空间对齐损失函数:设计了特定的损失函数,用于约束模型输出的动作与物理空间中的运动轨迹对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Being-H0在手部运动生成和指令跟随任务中表现出色,实现了毫米级的运动轨迹重建精度。通过物理指令调优,该模型在真实机器人操作任务中取得了显著的性能提升。实验结果表明,Being-H0能够有效利用大规模人类视频数据,学习人类的灵巧操作技能,并将其迁移到真实机器人上。

🎯 应用场景

Being-H0具有广泛的应用前景,例如:智能制造、家庭服务机器人、医疗辅助机器人等。该模型可以用于控制机器人执行各种灵巧操作任务,例如:装配、抓取、清洁等。通过与自然语言指令相结合,可以实现更加智能和灵活的人机交互,提升机器人的可用性和智能化水平。未来,该技术有望推动机器人技术在各个领域的广泛应用。

📄 摘要(原文)

We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained on large-scale human videos. Existing VLAs struggle with complex manipulation tasks requiring high dexterity and generalize poorly to novel scenarios and tasks, primarily due to their reliance on synthetic data with significant sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To address this data bottleneck, we propose leveraging human hands as a foundation manipulator, capitalizing on the rich dexterity and scalability present in web data. Our approach centers on physical instruction tuning, a novel training paradigm that combines large-scale VLA pretraining from human videos, physical space alignment for 3D reasoning, and post-training adaptation for robotic tasks. Additionally, we introduce a part-level motion tokenization method which achieves millimeter-level reconstruction accuracy to model precise hand trajectories for action learning. To support our proposed paradigm, we further develop a comprehensive data curation pipeline that integrates heterogeneous sources -- including motion capture, VR, and RGB-only videos -- into a large-scale dataset with millions of motion-based instructional instances. We empirically show the excellence of Being-H0 in hand motion generation and instruction following, and it also scales well with model and data sizes. Importantly, we observe the expected gains of Being-H0 in real-world robotic manipulation as physical instruction tuning is applied. More details are available at https://beingbeyond.github.io/Being-H0.