Developing Vision-Language-Action Model from Egocentric Videos

作者: Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori

分类: cs.RO, cs.AI

发布日期: 2025-09-26

💡 一句话要点

提出基于第一视角视频的视觉-语言-动作模型训练方法，无需人工标注。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 第一视角视频 机器人操作 预训练 EgoScaler

📋 核心要点

现有VLA模型训练依赖昂贵的人工遥操作或需要额外的手部姿态标注，限制了数据规模和泛化能力。
利用EgoScaler从第一视角视频中提取物体操作轨迹，自动构建大规模VLA预训练数据集，无需人工干预。
实验表明，使用该数据集预训练的VLA模型在模拟和真实机器人环境中均显著提升了任务成功率。

📝 摘要（中文）

本文提出了一种利用第一视角视频开发视觉-语言-动作模型（VLA）的方法。与通常使用的、成本高昂的专家手动遥操作训练VLA不同，第一视角视频提供了一种可扩展的替代方案，用于学习物体操作。为了解决直接从原始第一视角视频训练VLA的挑战，本文利用EgoScaler框架，该框架可以从第一视角视频中提取6DoF物体操作轨迹，而无需辅助记录。作者将EgoScaler应用于四个大规模第一视角视频数据集，并自动细化噪声或不完整的轨迹，从而构建了一个新的大规模数据集用于VLA预训练。在模拟和真实机器人环境中使用最先进的$π_0$架构进行的实验表明：（i）与从头开始训练相比，在本文数据集上进行预训练可将任务成功率提高20％以上；（ii）性能与使用真实机器人数据集获得的性能相当；（iii）将本文数据集与真实机器人数据相结合可进一步提高性能。这些结果表明，第一视角视频是推进VLA研究的一种有前途且可扩展的资源。

🔬 方法详解

问题定义：论文旨在解决如何利用大规模第一视角视频数据，高效地训练视觉-语言-动作模型（VLA），从而提升机器人操作的性能。现有方法主要依赖于人工遥操作或需要额外的手部姿态标注，这些方法成本高昂且难以扩展到大规模数据集，限制了VLA模型的泛化能力。

核心思路：论文的核心思路是利用EgoScaler框架，从第一视角视频中自动提取6DoF物体操作轨迹，从而构建大规模的VLA预训练数据集。这种方法避免了人工标注的成本，并能够利用大量的现有第一视角视频数据。通过预训练，VLA模型可以学习到通用的物体操作知识，从而提升在特定任务上的性能。

技术框架：整体框架包括以下几个主要步骤：1) 使用EgoScaler从第一视角视频中提取物体操作轨迹；2) 对提取的轨迹进行自动细化，去除噪声和补全缺失部分；3) 使用处理后的轨迹数据训练VLA模型。论文使用了$π_0$架构作为VLA模型，该模型将视觉输入（视频帧）和语言指令作为输入，输出机器人的动作。

关键创新：最重要的技术创新点在于利用EgoScaler自动提取物体操作轨迹，从而避免了人工标注的成本。与现有方法相比，该方法能够利用大规模的第一视角视频数据，从而提升VLA模型的泛化能力。此外，论文还提出了一种自动细化轨迹的方法，进一步提高了数据的质量。

关键设计：EgoScaler框架的具体实现细节未知，论文重点在于利用该框架生成的数据集进行VLA模型的预训练。$π_0$架构的具体参数设置和损失函数等细节在论文中可能有所描述（未知）。自动细化轨迹的方法的具体实现细节也未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在本文数据集上进行预训练可将任务成功率提高20％以上，性能与使用真实机器人数据集获得的性能相当，将本文数据集与真实机器人数据相结合可进一步提高性能。这些结果验证了第一视角视频作为VLA模型训练数据的有效性。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如家庭服务机器人、工业机器人等。通过利用大量的用户第一视角视频数据，可以训练出更加智能和灵活的机器人，从而更好地完成各种任务。该方法降低了机器人学习的成本，加速了机器人技术的发展。

📄 摘要（原文）

Egocentric videos capture how humans manipulate objects and tools, providing diverse motion cues for learning object manipulation. Unlike the costly, expert-driven manual teleoperation commonly used in training Vision-Language-Action models (VLAs), egocentric videos offer a scalable alternative. However, prior studies that leverage such videos for training robot policies typically rely on auxiliary annotations, such as detailed hand-pose recordings. Consequently, it remains unclear whether VLAs can be trained directly from raw egocentric videos. In this work, we address this challenge by leveraging EgoScaler, a framework that extracts 6DoF object manipulation trajectories from egocentric videos without requiring auxiliary recordings. We apply EgoScaler to four large-scale egocentric video datasets and automatically refine noisy or incomplete trajectories, thereby constructing a new large-scale dataset for VLA pre-training. Our experiments with a state-of-the-art $π_0$ architecture in both simulated and real-robot environments yield three key findings: (i) pre-training on our dataset improves task success rates by over 20\% compared to training from scratch, (ii) the performance is competitive with that achieved using real-robot datasets, and (iii) combining our dataset with real-robot data yields further improvements. These results demonstrate that egocentric videos constitute a promising and scalable resource for advancing VLA research.

Developing Vision-Language-Action Model from Egocentric Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理