Robot Learning from Human Videos: A Survey

作者: Junyi Ma, Erhang Zhang, Haoran Yang, Ditao Li, Chenyang Xu, Guangming Wang, Hesheng Wang

分类: cs.RO, cs.CV

发布日期: 2026-04-30

备注: Paper list: https://github.com/IRMVLab/awesome-robot-learning-from-human-videos

🔗 代码/项目: GITHUB

💡 一句话要点

综述：基于人类视频的机器人学习技术，促进通用机器人系统可扩展学习。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人学习 人类视频 技能迁移 模仿学习 逆强化学习 视频预测 数据集 具身智能

📋 核心要点

机器人数据规模是限制具身智能发展的瓶颈，现有方法难以有效利用海量人类活动视频。
该综述旨在全面回顾基于人类视频的机器人学习技术，涵盖技能迁移和数据基础。
论文分析了任务、观察和动作导向的迁移路径，并探讨了数据集发展趋势和未来方向。

📝 摘要（中文）

机器人数据规模的限制是具身智能和机器人技术进一步发展的关键瓶颈。为了解决这个问题，近年来，基于人类视频数据学习机器人操作技能的领域受到了越来越多的关注，这得益于人类活动视频的丰富性和计算机视觉的进步。这类研究有望使机器人能够从大量且易于获得的人类演示资源中被动地获取技能，从而极大地促进通用机器人系统的可扩展学习。因此，我们提出了这篇综述，对机器人技术中基于人类视频的学习技术进行了全面和最新的回顾，重点关注人-机器人技能转移和数据基础。我们首先回顾了机器人技术中的策略学习基础，然后描述了整合人类视频的基本接口。随后，我们介绍了一个将人类视频转移到机器人技能的分层分类法，涵盖了任务、观察和动作导向的途径，以及它们与不同数据配置和学习范式的交叉家族分析。此外，我们还研究了数据基础，包括广泛使用的人类视频数据集和视频生成方案，并提供了数据集开发和利用方面的大规模统计趋势。最后，我们强调了该领域固有的挑战和局限性，并概述了未来研究的潜在途径。

🔬 方法详解

问题定义：当前机器人学习面临数据瓶颈，难以获取足够且多样化的机器人交互数据。现有方法难以有效利用互联网上大量的人类活动视频，这些视频蕴含着丰富的操作技能和知识。因此，如何从人类视频中学习机器人操作技能，实现技能迁移，是本综述关注的核心问题。

核心思路：本综述的核心思路是将基于人类视频的机器人学习技术进行系统性地梳理和分类，并分析不同方法的优缺点和适用场景。通过对任务、观察和动作导向的迁移路径进行深入分析，为研究者提供一个清晰的框架，以便更好地理解和应用这些技术。同时，关注数据基础，包括数据集和视频生成，为该领域的研究提供数据支持。

技术框架：该综述首先回顾了机器人策略学习的基础知识，然后介绍了将人类视频整合到机器人学习中的基本接口。接着，提出了一个分层的分类法，将人类视频到机器人技能的迁移分为三个主要途径：任务导向、观察导向和动作导向。每个途径都包含不同的方法和技术，例如模仿学习、逆强化学习、视频预测等。最后，综述还探讨了数据基础，包括常用的数据集和视频生成方法。

关键创新：该综述的主要创新在于提出了一个系统性的分类框架，将基于人类视频的机器人学习技术按照任务、观察和动作导向进行分类，并分析了不同方法之间的联系和区别。这种分类方法有助于研究者更好地理解该领域的研究现状和发展趋势。此外，综述还对数据集和视频生成进行了深入的探讨，为该领域的研究提供了数据支持。

关键设计：综述的关键设计在于其分层分类框架，该框架将人类视频到机器人技能的迁移分为三个主要途径，并对每个途径下的不同方法进行了详细的介绍和分析。此外，综述还关注了数据基础，包括数据集的规模、多样性和质量，以及视频生成方法的逼真度和效率。这些设计使得该综述能够全面、系统地回顾基于人类视频的机器人学习技术。

📊 实验亮点

该综述对现有方法进行了全面的分析和比较，并指出了该领域面临的挑战和未来发展方向。通过对数据集和视频生成技术的深入探讨，为研究者提供了宝贵的资源和指导。该综述还强调了人-机器人技能转移的重要性，并提出了未来研究的潜在途径，例如利用大规模数据集进行预训练、开发更有效的迁移学习算法等。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗机器人等。通过从人类视频中学习技能，机器人可以更快速、更高效地适应新的任务和环境，从而提高其通用性和智能化水平。此外，该研究还有助于降低机器人开发的成本和难度，促进机器人技术的普及和应用。

📄 摘要（原文）

A critical bottleneck hindering further advancement in embodied AI and robotics is the challenge of scaling robot data. To address this, the field of learning robot manipulation skills from human video data has attracted rapidly growing attention in recent years, driven by the abundance of human activity videos and advances in computer vision. This line of research promises to enable robots to acquire skills passively from the vast and readily available resource of human demonstrations, substantially favoring scalable learning for generalist robotic systems. Therefore, we present this survey to provide a comprehensive and up-to-date review of human-video-based learning techniques in robotics, focusing on both human-robot skill transfer and data foundations. We first review the policy learning foundations in robotics, and then describe the fundamental interfaces to incorporate human videos. Subsequently, we introduce a hierarchical taxonomy of transferring human videos to robot skills, covering task-, observation-, and action-oriented pathways, along with a cross-family analysis of their couplings with different data configurations and learning paradigms. In addition, we investigate the data foundations including widely-used human video datasets and video generation schemes, and provide large-scale statistical trends in dataset development and utilization. Ultimately, we emphasize the challenges and limitations intrinsic to this field, and delineate potential avenues for future research. The paper list of our survey is available at https://github.com/IRMVLab/awesome-robot-learning-from-human-videos.

Robot Learning from Human Videos: A Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理