METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model

📄 arXiv: 2511.17366v1 📥 PDF

作者: Yankai Fu, Ning Chen, Junkai Zhao, Shaozhe Shan, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

分类: cs.RO, cs.CV

发布日期: 2025-11-21


💡 一句话要点

METIS:多源自中心训练的集成灵巧视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 视觉-语言-动作模型 多源数据融合 自中心视觉 机器人学习 运动感知动力学 EgoAtlas数据集

📋 核心要点

  1. 灵巧操作任务缺乏大规模、带动作标注的数据,阻碍了通用机器人的发展,遥操作成本高昂。
  2. METIS通过整合多源自中心数据,构建统一动作空间的EgoAtlas,并提取运动感知动力学进行监督。
  3. METIS在真实世界灵巧操作任务中取得了最高的平均成功率,并展现出优秀的泛化能力和鲁棒性。

📝 摘要(中文)

构建一个能够感知、推理和执行各种任务的通用机器人仍然是一个开放的挑战,特别是对于灵巧操作。一个主要的瓶颈在于缺乏大规模、动作标注的灵巧技能数据,因为遥操作既困难又昂贵。人类数据具有巨大的规模和多样化的操作行为,为学习机器人动作提供了丰富的先验知识。虽然之前的工作已经探索了利用人类演示,但它们通常受到有限场景和人类与机器人之间巨大视觉差距的限制。为了消除这些限制,我们提出了METIS,一个视觉-语言-动作(VLA)模型,用于在多源自中心数据集上预训练灵巧操作。我们首先构建EgoAtlas,它整合了来自多个来源的大规模人类和机器人数据,所有数据都在一致的动作空间下统一。我们进一步提取运动感知动力学,一种紧凑且离散的运动表示,为VLA训练提供高效且富有表现力的监督。在此基础上,METIS将推理和行动集成到一个统一的框架中,从而能够有效地部署到下游灵巧操作任务。我们的方法展示了卓越的灵巧操作能力,在六个真实世界任务中实现了最高的平均成功率。实验结果还突出了对分布外场景的卓越泛化和鲁棒性。这些发现强调了METIS作为迈向灵巧操作通用模型的一个有希望的步骤。

🔬 方法详解

问题定义:论文旨在解决灵巧操作机器人训练数据不足的问题,特别是缺乏大规模、带动作标注的数据。现有方法要么依赖昂贵的遥操作数据,要么受限于人类数据与机器人数据之间的视觉差异和场景限制。这些限制阻碍了通用灵巧操作机器人的发展。

核心思路:论文的核心思路是利用大规模的人类自中心视觉数据作为机器人学习的先验知识,并通过构建统一的动作空间和运动表示来弥合人类数据和机器人数据之间的差距。通过多源数据融合和运动感知动力学建模,提高模型的泛化能力和鲁棒性。

技术框架:METIS的整体框架包括以下几个主要阶段:1) 构建EgoAtlas数据集,整合来自多个来源的人类和机器人自中心数据,统一动作空间。2) 提取运动感知动力学(Motion-aware Dynamics)作为紧凑的运动表示,用于监督VLA模型的训练。3) 构建视觉-语言-动作(VLA)模型,将推理和行动集成到一个统一的框架中。4) 在下游灵巧操作任务上进行微调和评估。

关键创新:METIS的关键创新在于:1) EgoAtlas数据集的构建,整合了大规模多源自中心数据,弥合了人类数据和机器人数据之间的差距。2) 运动感知动力学(Motion-aware Dynamics)的提出,提供了一种紧凑且富有表现力的运动表示,用于高效的VLA模型训练。3) 将推理和行动集成到一个统一的VLA框架中,提高了模型的灵活性和泛化能力。

关键设计:EgoAtlas数据集包含多种人类和机器人自中心视角数据,并统一到相同的动作空间。运动感知动力学通过离散化运动轨迹并学习运动之间的转移概率来表示运动模式。VLA模型采用Transformer架构,将视觉、语言和动作信息融合在一起,实现端到端的学习。具体的损失函数包括动作预测损失、状态预测损失等,用于优化模型的性能。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

METIS在六个真实世界的灵巧操作任务中取得了最高的平均成功率,证明了其卓越的灵巧操作能力。实验结果还表明,METIS对分布外场景具有优秀的泛化能力和鲁棒性,能够有效应对未知的环境和任务。具体的性能提升数据未知。

🎯 应用场景

METIS的研究成果可应用于各种需要灵巧操作的机器人应用场景,例如:家庭服务机器人、工业自动化、医疗手术机器人等。通过利用大规模的人类数据进行预训练,可以显著降低机器人学习灵巧技能的成本和时间,并提高机器人的泛化能力和鲁棒性,使其能够适应更复杂和多变的环境。

📄 摘要(原文)

Building a generalist robot that can perceive, reason, and act across diverse tasks remains an open challenge, especially for dexterous manipulation. A major bottleneck lies in the scarcity of large-scale, action-annotated data for dexterous skills, as teleoperation is difficult and costly. Human data, with its vast scale and diverse manipulation behaviors, provides rich priors for learning robotic actions. While prior works have explored leveraging human demonstrations, they are often constrained by limited scenarios and a large visual gap between human and robots. To eliminate these limitations, we propose METIS, a vision-language-action (VLA) model for dexterous manipulation pretrained on multi-source egocentric datasets. We first construct EgoAtlas, which integrates large-scale human and robotic data from multiple sources, all unified under a consistent action space. We further extract motion-aware dynamics, a compact and discretized motion representation, which provides efficient and expressive supervision for VLA training. Built upon them, METIS integrates reasoning and acting into a unified framework, enabling effective deployment to downstream dexterous manipulation tasks. Our method demonstrates exceptional dexterous manipulation capabilities, achieving highest average success rate in six real-world tasks. Experimental results also highlight the superior generalization and robustness to out-of-distribution scenarios. These findings emphasize METIS as a promising step toward a generalist model for dexterous manipulation.