EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos
作者: Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Xuxin Cheng, Ri-Zhao Qiu, Hongxu Yin, Sifei Liu, Song Han, Yao Lu, Xiaolong Wang
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2025-07-16 (更新: 2025-07-18)
备注: More videos can be found on our website: https://rchalyang.github.io/EgoVLA
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
EgoVLA:利用第一视角人类视频学习视觉-语言-动作模型,提升机器人操作能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 第一视角视频 模仿学习 动作重定向 机器人操作 人类数据 逆运动学
📋 核心要点
- 机器人模仿学习依赖大量真实机器人数据,但机器人硬件的限制阻碍了数据规模的扩展。
- EgoVLA利用第一视角人类视频训练VLA模型,通过动作重定向将人类动作迁移到机器人,扩展了数据来源。
- EgoVLA在Ego Humanoid Manipulation Benchmark上表现出色,证明了人类数据在机器人学习中的价值。
📝 摘要(中文)
本文提出了一种名为EgoVLA的方法,旨在利用第一视角人类视频训练视觉-语言-动作(VLA)模型。相较于机器人数据,人类视频不仅规模更大,而且场景和任务更加丰富。EgoVLA模型通过预测人类手腕和手部动作,结合逆运动学和动作重定向技术,将人类动作转化为机器人动作。该模型使用少量机器人操作演示进行微调,从而获得机器人策略。此外,本文还提出了一个名为Ego Humanoid Manipulation Benchmark的模拟基准,用于评估双手动灵巧操作任务。实验结果表明,EgoVLA在Ego Humanoid Manipulation Benchmark上显著优于基线方法,并验证了人类数据的重要性。
🔬 方法详解
问题定义:现有机器人模仿学习方法严重依赖真实机器人数据,数据收集成本高昂且规模受限。同时,真实机器人环境的复杂度和多样性也远不及人类生活环境,导致模型泛化能力不足。因此,如何利用更丰富、更易获取的人类数据来提升机器人操作能力是一个关键问题。
核心思路:EgoVLA的核心思路是利用第一视角人类视频作为训练数据,学习人类的视觉-语言-动作对应关系,然后通过逆运动学和动作重定向技术,将学习到的人类动作知识迁移到机器人上。这种方法充分利用了人类视频数据量大、场景丰富的优势,降低了对真实机器人数据的依赖。
技术框架:EgoVLA的整体框架包含以下几个主要步骤:1) 使用第一视角人类视频训练VLA模型,该模型能够根据视觉输入(视频帧)和语言指令预测人类手腕和手部动作。2) 使用逆运动学(Inverse Kinematics)将预测的人类动作转化为关节角度。3) 使用动作重定向(Retargeting)将人类关节角度映射到机器人关节角度。4) 使用少量真实机器人数据对VLA模型进行微调,以适应机器人自身的运动学特性。
关键创新:EgoVLA的关键创新在于利用人类视频数据作为机器人学习的桥梁。传统方法直接从机器人数据中学习,而EgoVLA则通过学习人类的动作模式,将人类的知识迁移到机器人上。这种方法不仅可以降低对机器人数据的依赖,还可以利用人类视频中丰富的场景和任务信息,提升机器人的泛化能力。此外,Ego Humanoid Manipulation Benchmark的提出也为评估类人机器人的操作能力提供了一个新的平台。
关键设计:VLA模型采用Transformer架构,输入包括视频帧和语言指令,输出是人类手腕和手部动作的预测。损失函数包括动作预测损失和语言理解损失。动作重定向采用基于优化的方法,目标是最小化人类和机器人之间的关节角度差异,同时考虑机器人的运动学约束。微调阶段使用少量机器人数据,采用监督学习的方式,进一步优化VLA模型在机器人上的性能。
🖼️ 关键图片
📊 实验亮点
EgoVLA在Ego Humanoid Manipulation Benchmark上取得了显著的性能提升。与基线方法相比,EgoVLA在多个双手动灵巧操作任务上都取得了更好的结果,证明了人类数据在机器人学习中的重要性。消融实验表明,人类数据对于提升模型的泛化能力至关重要。此外,少量机器人数据的微调可以进一步提升EgoVLA在真实机器人上的性能。
🎯 应用场景
EgoVLA具有广泛的应用前景,例如家庭服务机器人、工业自动化、医疗辅助等领域。通过学习人类的操作技能,机器人可以更好地理解人类的意图,并执行复杂的任务。此外,该方法还可以用于生成机器人操作的训练数据,加速机器人学习过程。未来,EgoVLA有望成为实现通用机器人操作的关键技术。
📄 摘要(原文)
Real robot data collection for imitation learning has led to significant advancements in robotic manipulation. However, the requirement for robot hardware in the process fundamentally constrains the scale of the data. In this paper, we explore training Vision-Language-Action (VLA) models using egocentric human videos. The benefit of using human videos is not only for their scale but more importantly for the richness of scenes and tasks. With a VLA trained on human video that predicts human wrist and hand actions, we can perform Inverse Kinematics and retargeting to convert the human actions to robot actions. We fine-tune the model using a few robot manipulation demonstrations to obtain the robot policy, namely EgoVLA. We propose a simulation benchmark called Ego Humanoid Manipulation Benchmark, where we design diverse bimanual manipulation tasks with demonstrations. We fine-tune and evaluate EgoVLA with Ego Humanoid Manipulation Benchmark and show significant improvements over baselines and ablate the importance of human data. Videos can be found on our website: https://rchalyang.github.io/EgoVLA