FMimic: Foundation Models are Fine-grained Action Learners from Human Videos

📄 arXiv: 2507.20622v1 📥 PDF

作者: Guangyan Chen, Meiling Wang, Te Cui, Yao Mu, Haoyang Lu, Zicai Peng, Mengxiao Hu, Tianxing Zhou, Mengyin Fu, Yi Yang, Yufeng Yue

分类: cs.RO

发布日期: 2025-07-28

备注: accepted to International Journal of Robotics Research(IJRR)


💡 一句话要点

FMimic:利用基础模型从人类视频中学习细粒度动作,提升机器人模仿学习能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉模仿学习 基础模型 细粒度动作学习 机器人操作 视觉语言模型

📋 核心要点

  1. 现有视觉模仿学习方法依赖预定义的运动原语,限制了机器人泛化能力和复杂任务处理。
  2. FMimic利用基础模型直接学习细粒度动作技能,无需预定义原语,提升了泛化性和灵活性。
  3. 实验表明,FMimic在多种任务中显著优于现有方法,尤其在少量样本和复杂任务中表现突出。

📝 摘要(中文)

视觉模仿学习(VIL)为机器人系统提供了一种高效直观的获取新技能的策略。最近基础模型,特别是视觉语言模型(VLMs)的进步,展示了在VIL任务中卓越的视觉和语言推理能力。然而,现有方法主要利用这些模型从人类演示中学习高层计划,并依赖于预定义的运动原语来执行物理交互,这仍然是机器人系统的一个主要瓶颈。本文提出了FMimic,一种新颖的范式,利用基础模型直接学习通用的细粒度动作技能,仅使用少量人类视频。大量实验表明,FMimic在单个人类视频下表现出色,并在五个视频下显著优于所有其他方法。此外,我们的方法在RLBench多任务实验和真实世界操作任务中分别实现了超过39%和29%的显著改进,并且在高精度任务和长时程任务中超过基线34%和47%以上。

🔬 方法详解

问题定义:现有视觉模仿学习方法主要依赖于预定义的运动原语来执行物理交互,这限制了机器人系统处理复杂任务和泛化到新环境的能力。痛点在于缺乏一种能够直接从人类演示视频中学习细粒度、通用动作技能的方法。

核心思路:FMimic的核心思路是利用预训练的基础模型,特别是视觉语言模型(VLMs),直接从人类视频中学习细粒度的动作策略。通过将视频帧作为输入,模型能够预测机器人需要执行的动作,从而绕过对预定义运动原语的依赖。

技术框架:FMimic的整体框架包括以下几个主要阶段:1) 数据收集:收集少量人类演示视频。2) 特征提取:使用视觉语言模型提取视频帧的视觉特征。3) 动作预测:基于提取的视觉特征,模型预测机器人需要执行的动作。4) 策略优化:使用模仿学习算法优化动作预测策略。

关键创新:FMimic最重要的技术创新在于它能够直接从人类视频中学习细粒度的动作策略,而无需依赖预定义的运动原语。这使得机器人能够更好地泛化到新环境和处理复杂任务。此外,FMimic只需要少量的人类演示视频即可实现良好的性能。

关键设计:FMimic的关键设计包括:1) 使用预训练的视觉语言模型作为特征提取器,以利用其强大的视觉理解能力。2) 设计合适的损失函数,以鼓励模型学习准确的动作预测。3) 采用模仿学习算法,例如行为克隆或Dagger,来优化动作预测策略。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FMimic在多个实验中表现出色。在RLBench多任务实验中,FMimic的性能提升了39%。在真实世界操作任务中,FMimic的性能提升了29%。在高精度任务和长时程任务中,FMimic分别超过基线34%和47%以上。这些结果表明,FMimic能够有效地学习细粒度的动作技能,并在各种复杂任务中实现良好的泛化性能。

🎯 应用场景

FMimic在机器人操作、自动化装配、家庭服务等领域具有广泛的应用前景。它可以帮助机器人快速学习新的技能,提高其在复杂环境中的适应性和灵活性。例如,在自动化装配线上,机器人可以利用FMimic学习如何组装新的产品,而无需人工编程。在家庭服务领域,机器人可以利用FMimic学习如何执行各种家务任务,例如清洁、烹饪等。未来,FMimic有望成为机器人领域的一项关键技术。

📄 摘要(原文)

Visual imitation learning (VIL) provides an efficient and intuitive strategy for robotic systems to acquire novel skills. Recent advancements in foundation models, particularly Vision Language Models (VLMs), have demonstrated remarkable capabilities in visual and linguistic reasoning for VIL tasks. Despite this progress, existing approaches primarily utilize these models for learning high-level plans from human demonstrations, relying on pre-defined motion primitives for executing physical interactions, which remains a major bottleneck for robotic systems. In this work, we present FMimic, a novel paradigm that harnesses foundation models to directly learn generalizable skills at even fine-grained action levels, using only a limited number of human videos. Extensive experiments demonstrate that our FMimic delivers strong performance with a single human video, and significantly outperforms all other methods with five videos. Furthermore, our method exhibits significant improvements of over 39% and 29% in RLBench multi-task experiments and real-world manipulation tasks, respectively, and exceeds baselines by more than 34% in high-precision tasks and 47% in long-horizon tasks.