MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

📄 arXiv: 2605.05945v1 📥 PDF

作者: Senthil Palanisamy, Abhishek Anand, Satpal Singh Rathor, Pratyush Patnaik, Shubhanshu Khatana

分类: cs.CV, cs.CL

发布日期: 2026-05-07


💡 一句话要点

MobileEgo Anywhere:利用移动设备实现长时间第一视角数据采集的开放平台

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一视角数据 移动机器人 视觉语言动作模型 长时间序列 开源数据集

📋 核心要点

  1. 现有第一视角数据集时长有限,难以满足复杂机器人任务对长时序依赖的需求。
  2. MobileEgo Anywhere 利用智能手机的传感器,实现了低成本、长时间的第一视角数据采集。
  3. 开源了数据采集APP与处理流程,并发布了包含200小时数据的 MobileEgo Anywhere 数据集。

📝 摘要(中文)

视觉语言动作(VLA)模型的最新进展对大规模第一视角数据集提出了关键需求。然而,现有数据集通常受限于短时片段,通常只有几分钟,无法捕捉复杂机器人任务执行所需的长时间跨度时序依赖性。为了弥补这一差距,我们提出了MobileEgo Anywhere,该框架旨在利用通用移动硬件促进稳健的、超过一小时的第一视角轨迹数据采集。我们利用现代智能手机无处不在的传感器套件来提供高保真、长期的相机姿态跟踪,有效消除了与传统机器人数据采集相关的高硬件壁垒。我们的贡献包括:(1) 发布了一个包含200小时多样化、长时第一视角数据并带有持久状态跟踪的新数据集;(2) 开源了一个移动应用程序,使用户能够记录第一视角数据;(3) 提供了一个全面的处理流程,将原始移动捕获转换为标准化的、可用于视觉语言动作模型和基础模型研究的训练格式。通过普及数据采集过程,这项工作实现了在全球不同环境中大规模获取长时间跨度数据,加速了通用机器人策略的开发。

🔬 方法详解

问题定义:现有第一视角数据集的痛点在于episode时长较短,无法捕捉长时间的上下文信息,限制了视觉语言动作模型在复杂机器人任务中的应用。传统方法通常需要昂贵的机器人硬件和复杂的标定过程,数据采集成本高昂。

核心思路:MobileEgo Anywhere 的核心思路是利用现代智能手机普及的传感器套件(如摄像头、IMU、GPS)进行长时间、低成本的第一视角数据采集。通过优化传感器数据融合算法,实现高精度的相机姿态跟踪,从而克服移动设备在数据质量上的固有局限性。

技术框架:MobileEgo Anywhere 包含三个主要组成部分:1) 数据采集移动应用程序:用于在移动设备上记录传感器数据;2) 数据处理流水线:用于将原始传感器数据转换为训练就绪的格式,包括相机姿态估计、数据同步、数据标注等;3) MobileEgo Anywhere数据集:包含200小时的真实世界第一视角数据,涵盖多种场景和活动。

关键创新:MobileEgo Anywhere 的关键创新在于将低成本的移动设备应用于长时间第一视角数据采集,并提供完整的开源工具链,降低了数据采集的门槛。相较于传统的机器人数据采集方法,MobileEgo Anywhere 极大地降低了硬件成本和数据采集难度,促进了大规模数据集的构建。

关键设计:数据处理流水线中,使用视觉惯性里程计(VIO)算法融合摄像头和IMU数据,实现高精度的相机姿态估计。采用滑动窗口优化方法,提高姿态估计的鲁棒性。在数据集中,提供了持久状态跟踪信息,方便研究人员进行行为分析和预测。APP支持用户自定义录制参数,例如帧率、分辨率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MobileEgo Anywhere 贡献了包含200小时数据的 MobileEgo Anywhere 数据集,数据涵盖多种场景与人物活动,显著扩大了现有第一视角数据集的规模。通过开源的数据采集APP与处理流程,大大降低了第一视角数据收集的门槛,方便研究者快速构建定制数据集。

🎯 应用场景

MobileEgo Anywhere 的潜在应用领域包括机器人导航、行为预测、人机交互、增强现实等。该研究通过降低第一视角数据采集的成本,加速了相关领域的研究进展。未来,可以利用该平台构建更大规模、更丰富的第一视角数据集,推动通用机器人策略和智能体的发展。

📄 摘要(原文)

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.