AoE: Always-on Egocentric Human Video Collection for Embodied AI

📄 arXiv: 2602.23893v1 📥 PDF

作者: Bowen Yang, Zishuo Li, Yang Sun, Changtao Miao, Yifan Yang, Man Luo, Xiaotong Yan, Feng Jiang, Jinchuan Shi, Yankai Fu, Ning Chen, Junkai Zhao, Pengwei Wang, Guocai Yao, Shanghang Zhang, Hao Chen, Zhe Li, Kai Zhu

分类: cs.CV, cs.RO

发布日期: 2026-02-27


💡 一句话要点

提出AoE系统,利用智能手机和颈戴支架,低成本高效收集第一人称视角人类交互视频数据。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 第一人称视角 数据采集 云边协同 智能手机 颈戴支架 人机交互 视频数据

📋 核心要点

  1. 现有具身智能模型训练面临数据稀缺难题,传统数据采集方法成本高昂且依赖复杂硬件。
  2. AoE系统利用人类自身和智能手机,通过颈戴支架和云边协同,实现低成本、高效的第一人称视角数据采集。
  3. 实验表明,使用AoE系统收集的高质量数据能显著提升模型在真实世界中的泛化能力。

📝 摘要(中文)

具身智能基础模型需要大规模、高质量的真实世界交互数据进行预训练和扩展。然而,现有的数据收集方法存在基础设施成本高、硬件依赖复杂和交互范围有限等问题,使得可扩展性面临挑战。事实上,人类本身就是理想的具身智能体。因此,从全球分布的“人类智能体”获取第一人称视角的真实世界交互数据具有低成本和可持续性的优势。为此,我们提出了Always-on Egocentric (AoE)数据收集系统,旨在通过利用人类自身及其智能手机来简化硬件依赖,从而实现低成本、高效和场景无关的真实世界交互数据收集,以解决数据稀缺的挑战。具体来说,我们首先采用符合人体工程学的颈戴式智能手机支架,通过云边协同架构实现低门槛、大规模的第一人称数据收集。其次,我们开发了一个跨平台移动APP,利用设备上的计算能力进行实时处理,而云端则托管自动标注和过滤流程,将原始视频转换为高质量的训练数据。最后,AoE系统支持任何人、任何时间、任何地点进行分布式Ego视频数据收集。我们在数据预处理质量和下游任务上评估了AoE,证明高质量的第一人称数据显著提高了真实世界的泛化能力。

🔬 方法详解

问题定义:论文旨在解决具身智能模型训练中高质量第一人称视角交互数据稀缺的问题。现有数据收集方法成本高、硬件依赖性强、交互范围有限,难以支持模型的大规模预训练和泛化。

核心思路:论文的核心思路是将人类自身视为具身智能体,利用人类的智能手机和简单的颈戴支架,在全球范围内低成本、高效地收集第一人称视角的数据。通过云边协同架构,实现数据的实时处理、自动标注和过滤,从而获得高质量的训练数据。

技术框架:AoE系统包含三个主要组成部分:1) 颈戴式智能手机支架,用于固定智能手机,方便用户进行数据采集;2) 跨平台移动APP,用于视频录制、实时处理和数据上传;3) 云端平台,用于数据存储、自动标注、质量过滤和数据管理。用户通过APP录制视频,视频数据上传到云端,云端平台利用算法对视频进行自动标注和质量过滤,最终生成高质量的训练数据集。

关键创新:AoE系统的关键创新在于其低成本、高效率和可扩展性。它摆脱了对昂贵硬件和复杂环境的依赖,利用人类自身和智能手机,实现了大规模的分布式数据收集。此外,云边协同架构实现了数据的实时处理和自动标注,大大提高了数据处理效率。

关键设计:颈戴支架的设计需要考虑人体工程学,确保用户佩戴舒适。移动APP需要具备良好的用户体验和稳定的性能,支持多种视频格式和分辨率。云端平台的自动标注算法需要具备较高的准确率和鲁棒性,能够处理各种场景下的视频数据。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,使用AoE系统收集的高质量第一人称视角数据能够显著提升具身智能模型在真实世界中的泛化能力。具体的性能数据、对比基线和提升幅度在论文中可能有所体现,但此处无法给出具体数值,属于未知信息。

🎯 应用场景

AoE系统采集的数据可用于训练各种具身智能模型,例如机器人导航、物体识别、行为预测等。该系统可广泛应用于智能家居、自动驾驶、医疗健康等领域,帮助机器人更好地理解人类行为和环境,从而实现更智能、更自然的交互。未来,AoE系统有望成为具身智能研究的重要数据来源。

📄 摘要(原文)

Embodied foundation models require large-scale, high-quality real-world interaction data for pre-training and scaling. However, existing data collection methods suffer from high infrastructure costs, complex hardware dependencies, and limited interaction scope, making scalable expansion challenging. In fact, humans themselves are ideal physically embodied agents. Therefore, obtaining egocentric real-world interaction data from globally distributed "human agents" offers advantages of low cost and sustainability. To this end, we propose the Always-on Egocentric (AoE) data collection system, which aims to simplify hardware dependencies by leveraging humans themselves and their smartphones, enabling low-cost, highly efficient, and scene-agnostic real-world interaction data collection to address the challenge of data scarcity. Specifically, we first employ an ergonomic neck-mounted smartphone holder to enable low-barrier, large-scale egocentric data collection through a cloud-edge collaborative architecture. Second, we develop a cross-platform mobile APP that leverages on-device compute for real-time processing, while the cloud hosts automated labeling and filtering pipelines that transform raw videos into high-quality training data. Finally, the AoE system supports distributed Ego video data collection by anyone, anytime, and anywhere. We evaluate AoE on data preprocessing quality and downstream tasks, demonstrating that high-quality egocentric data significantly boosts real-world generalization.