In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data

📄 arXiv: 2511.15704v1 📥 PDF

作者: Xiongyi Cai, Ri-Zhao Qiu, Geng Chen, Lai Wei, Isabella Liu, Tianshu Huang, Xuxin Cheng, Xiaolong Wang

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-11-19

备注: Project webpage: https://xiongyicai.github.io/In-N-On/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

利用真实场景和任务数据,扩展第一视角操作策略学习。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 第一视角操作 机器人学习 语言条件策略 领域自适应 流匹配

📋 核心要点

  1. 现有第一视角操作学习方法受限于数据异构性,未能充分利用大规模人类数据。
  2. 论文提出In-N-On方法,区分真实场景和任务相关数据,并学习语言条件操作策略Human0。
  3. 实验表明,Human0在语言指令跟随、小样本学习和鲁棒性方面均有显著提升。

📝 摘要(中文)

本论文提出了一种可扩展的方法,通过利用第一视角视频学习操作策略。由于数据异构性,现有方法主要使用人类数据进行简单的预训练,未能充分发挥其潜力。本文将人类数据分为两类:真实场景数据(in-the-wild)和任务相关数据(on-task),并系统分析了如何使用这些数据。我们构建了一个名为PHSD的数据集,包含超过1000小时的真实场景第一视角数据和超过20小时的任务相关数据,这些数据直接与目标操作任务对齐。这使得我们能够学习一个大型的第一视角语言条件流匹配策略,称为Human0。通过领域自适应技术,Human0最小化了人类和人形机器人之间的差距。实验结果表明,Human0通过扩展人类数据实现了多种新特性,包括仅使用人类数据的语言指令跟随、小样本学习以及使用任务相关数据提高鲁棒性。

🔬 方法详解

问题定义:现有第一视角操作学习方法主要依赖于人类数据,但由于人类数据来源广泛,异构性强,直接利用效果不佳。现有方法通常只将人类数据用于简单的预训练,无法充分挖掘其潜力,导致模型泛化能力和鲁棒性不足。因此,如何有效利用大规模异构的人类第一视角数据,提升操作策略的学习效果,是一个亟待解决的问题。

核心思路:本论文的核心思路是将人类第一视角数据划分为“真实场景(in-the-wild)”和“任务相关(on-task)”两类,并针对这两类数据设计不同的利用策略。真实场景数据提供丰富的环境和行为多样性,用于学习通用的操作先验知识;任务相关数据则直接与目标任务对齐,用于提升模型的任务特定性能和鲁棒性。通过结合这两类数据,可以有效地弥合人类数据和机器人数据之间的差距,从而实现更好的操作策略学习。

技术框架:整体框架包含数据收集、模型训练和领域自适应三个主要阶段。首先,构建PHSD数据集,包含大规模的真实场景和任务相关的第一视角数据。然后,利用PHSD数据训练一个大型的语言条件流匹配策略Human0。Human0以第一视角视频帧和语言指令作为输入,预测动作序列。最后,采用领域自适应技术,将Human0从人类数据迁移到机器人数据上,从而实现机器人的操作策略学习。

关键创新:本论文的关键创新在于提出了In-N-On的数据利用策略,即将人类数据划分为真实场景和任务相关两类,并分别利用它们来学习通用的操作先验知识和任务特定的性能。这种策略能够更有效地利用大规模异构的人类数据,从而提升操作策略的学习效果。此外,构建了大规模的PHSD数据集,为第一视角操作学习提供了宝贵的数据资源。

关键设计:Human0模型采用流匹配(Flow Matching)作为训练目标,通过学习一个连续的动作流来生成动作序列。语言条件信息通过Transformer编码器进行处理,并与视觉特征融合。领域自适应采用对抗训练的方式,最小化人类和机器人数据之间的特征差异。具体而言,使用梯度反转层(Gradient Reversal Layer)来训练一个领域判别器,同时训练Human0模型来欺骗领域判别器,从而实现领域不变的特征学习。

📊 实验亮点

实验结果表明,Human0在多个操作任务上取得了显著的性能提升。例如,在语言指令跟随任务上,Human0能够准确地执行复杂的语言指令,即使这些指令从未在训练数据中出现过。此外,Human0还展现出强大的小样本学习能力,仅需少量任务相关数据即可快速适应新的操作任务。通过利用任务相关数据,Human0的鲁棒性也得到了显著提升,能够更好地应对环境变化和干扰。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域,例如家庭服务机器人、工业机器人等。通过学习人类的操作经验,机器人可以更好地理解和执行各种操作任务,从而提高其智能化水平和服务能力。此外,该方法还可以应用于虚拟现实和增强现实等领域,为用户提供更加自然和直观的交互体验。

📄 摘要(原文)

Egocentric videos are a valuable and scalable data source to learn manipulation policies. However, due to significant data heterogeneity, most existing approaches utilize human data for simple pre-training, which does not unlock its full potential. This paper first provides a scalable recipe for collecting and using egocentric data by categorizing human data into two categories: in-the-wild and on-task alongside with systematic analysis on how to use the data. We first curate a dataset, PHSD, which contains over 1,000 hours of diverse in-the-wild egocentric data and over 20 hours of on-task data directly aligned to the target manipulation tasks. This enables learning a large egocentric language-conditioned flow matching policy, Human0. With domain adaptation techniques, Human0 minimizes the gap between humans and humanoids. Empirically, we show Human0 achieves several novel properties from scaling human data, including language following of instructions from only human data, few-shot learning, and improved robustness using on-task data. Project website: https://xiongyicai.github.io/In-N-On/