HumanNet: Scaling Human-centric Video Learning to One Million Hours

📄 arXiv: 2605.06747v1 📥 PDF

作者: Yufan Deng, Daquan Zhou

分类: cs.CV, cs.RO

发布日期: 2026-05-07

备注: Github: https://github.com/DAGroup-PKU/HumanNet Project website: https://dagroup-pku.github.io/HumanNet/


💡 一句话要点

提出HumanNet大规模以人为中心视频语料库,通过海量交互数据赋能具身智能模型训练

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视频语料库 第一人称视觉 人机交互 多模态学习 动作预测 表示学习

📋 核心要点

  1. 具身智能领域面临高质量、大规模物理交互数据匮乏的瓶颈,限制了模型在复杂环境下的泛化能力。
  2. 提出HumanNet数据集构建范式,通过系统化的筛选、时序结构化与交互标注,将海量互联网视频转化为具身学习基石。
  3. 实验验证了HumanNet在视觉-语言-动作任务中的有效性,证明其作为机器人数据替代方案的成本效益与扩展潜力。

📝 摘要(中文)

具身智能的发展日益依赖于可扩展的数据基础设施。尽管视觉与语言模型已通过互联网语料实现规模化,但物理交互学习仍受限于缺乏大规模、多样化且标注丰富的视频数据。本文提出了HumanNet,一个包含一百万小时以人为中心视频的语料库,涵盖了第一人称与第三人称视角,涉及细粒度活动、人机交互、工具使用及长程行为。除原始视频外,该数据集还提供交互式标注(如字幕、动作描述、手部与身体信号),支持运动感知与交互感知学习。HumanNet引入了一套系统化的数据筛选与结构化范式,将非结构化互联网视频转化为具身表示学习、活动理解及人机迁移的基石。实验表明,利用HumanNet中1000小时的第一人称视频对Qwen VLM进行持续训练,其效果优于使用100小时真实机器人数据,证明了以人为中心的视频是机器人数据的有效替代方案。

🔬 方法详解

问题定义:当前具身智能模型训练严重依赖昂贵且稀缺的真实机器人数据,导致模型难以扩展至复杂多变的现实场景,亟需一种能够利用海量互联网视频数据进行高效表征学习的替代方案。

核心思路:论文提出将人类日常活动视频作为具身智能的“训练语料”,通过系统化的数据处理范式,将非结构化的互联网视频转化为包含动作、交互和时序信息的结构化数据,从而弥补机器人数据的规模缺口。

技术框架:HumanNet构建流程包含四个核心阶段:首先是基于人类中心视角的视频筛选;其次是进行时序结构化处理以提取长程行为;第三是引入视角多样性增强;最后通过自动化与人工辅助相结合的方式进行多模态标注(字幕、动作描述、手部/身体关键点)。

关键创新:该研究首次系统性地定义了“以人为中心”的数据处理范式,将视频理解任务从单纯的分类/描述转向交互感知,并验证了人类第一人称视频在具身动作预测任务中对机器人数据的替代价值。

关键设计:采用了多维度的标注策略,重点关注手部与物体的交互关系(HOI),并设计了针对长程行为的切片与对齐机制,确保模型能够学习到从动作意图到物理执行的完整映射,而非仅仅是视觉特征的简单提取。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验通过视觉-语言-动作(VLA)消融研究验证了HumanNet的价值。结果显示,使用HumanNet中1000小时的第一人称视频对Qwen VLM进行持续训练,在固定验证集上的表现超越了使用100小时真实机器人数据(Magic Cobot)训练的模型,证明了人类视频在具身学习中具有极高的扩展性与成本效益。

🎯 应用场景

该研究主要应用于具身智能领域,包括通用机器人控制、家庭服务机器人、人机协作系统及虚拟代理。通过利用海量人类视频数据,可显著降低机器人训练对真实物理数据的依赖,加速大模型在复杂操作任务中的落地,并推动机器人从单一任务向通用智能演进。

📄 摘要(原文)

Progress in embodied intelligence increasingly depends on scalable data infrastructure. While vision and language have scaled with internet corpora, learning physical interaction remains constrained by the lack of large, diverse, and richly annotated human activity data. We present HumanNet, a one-million-hour human-centric video corpus that captures how humans interact with the physical world at scale. HumanNet spans both first-person and third-person perspectives and covers fine-grained activities, human-object interactions, tool use, and long-horizon behaviors across diverse real-world environments. Beyond raw video, the dataset provides interaction-centric annotations, including captions, motion descriptions, and hand and body-related signals, enabling motion-aware and interaction-aware learning. Beyond scale, HumanNet introduces a systematic data curation paradigm for embodied learning, where human-centric filtering, temporal structuring, viewpoint diversity, and annotation enrichment are treated as first-class design principles. This design transforms unstructured internet video into a scalable substrate for representation learning, activity understanding, motion generation, and human-to-robot transfer. We conduct a first-step validation on the value of this design through controlled vision-language-action ablation: under a fixed set of validation data, continued training from the Qwen VLM model with 1000 hours of egocentric video drawn from HumanNet surpasses the continued training with 100 hours of real-robot data from Magic Cobot, indicating that egocentric human video could be a scalable and cost-effective substitute for robot data. By building this project, we aim to explore the opportunity to scale embodied foundation models using human-centric videos, rather than relying solely on robot-specific data.