Aria Gen 2 Pilot Dataset

📄 arXiv: 2510.16134v1 📥 PDF

作者: Chen Kong, James Fort, Aria Kang, Jonathan Wittmer, Simon Green, Tianwei Shen, Yipu Zhao, Cheng Peng, Gustavo Solaira, Andrew Berkovich, Nikhil Raina, Vijay Baiyya, Evgeniy Oleinik, Eric Huang, Fan Zhang, Julian Straub, Mark Schwesinger, Luis Pesqueira, Xiaqing Pan, Jakob Julian Engel, Carl Ren, Mingfei Yan, Richard Newcombe

分类: cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

发布日期: 2025-10-17


💡 一句话要点

发布Aria Gen 2 Pilot Dataset,用于可穿戴设备的第一人称视角多模态感知研究

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一人称视角感知 多模态数据集 可穿戴设备 Aria Gen 2 日常活动识别

📋 核心要点

  1. 现有第一人称视角感知数据集在多模态数据、场景多样性和用户泛化性方面存在不足,限制了相关算法的开发和评估。
  2. 该数据集利用Aria Gen 2眼镜,记录了佩戴者在多种日常活动中的多模态数据,旨在提供更全面、真实的第一人称视角感知数据。
  3. 数据集包含原始传感器数据和机器感知算法的输出,涵盖了清洁、烹饪、饮食、玩耍和户外散步等场景,并考虑了不同用户和条件下的鲁棒性。

📝 摘要(中文)

Aria Gen 2 Pilot Dataset (A2PD)是一个利用最先进的Aria Gen 2眼镜捕获的第一人称视角多模态开放数据集。为了方便及时访问,A2PD以增量方式发布,并不断增强数据集。初始版本以Dia'ane(主要受试者)为特色,她与朋友们一起记录日常生活,每个人都配备了Aria Gen 2眼镜。它包含五个主要场景:清洁、烹饪、饮食、玩耍和户外散步。在每个场景中,我们提供全面的原始传感器数据和来自各种机器感知算法的输出数据。这些数据展示了设备感知佩戴者、周围环境以及佩戴者与环境之间交互的能力,同时在不同的用户和条件下保持了强大的性能。A2PD可在projectaria.com公开获取,Project Aria Tools中提供了开源工具和使用示例。

🔬 方法详解

问题定义:现有第一人称视角感知数据集通常在数据模态的丰富度、场景的多样性以及用户泛化性方面存在局限。这使得研究人员难以开发和评估在真实世界中鲁棒且通用的第一人称视角感知算法。例如,现有数据集可能只包含视觉数据,缺乏深度、音频或其他传感器信息,或者只关注特定场景,无法反映真实世界的多样性。

核心思路:该数据集的核心思路是利用先进的可穿戴设备(Aria Gen 2眼镜)记录佩戴者在日常活动中的多模态数据,从而提供更全面、真实的第一人称视角感知数据。通过收集多种传感器数据,并覆盖不同的场景和用户,旨在解决现有数据集的局限性,促进第一人称视角感知算法的发展。

技术框架:该数据集的构建流程主要包括数据采集、数据处理和数据发布三个阶段。数据采集阶段使用Aria Gen 2眼镜记录佩戴者在不同场景下的多模态数据,包括视觉、深度、音频等。数据处理阶段对原始数据进行清洗、校准和同步,并应用机器感知算法生成中间结果。数据发布阶段将处理后的数据和算法输出以开放数据集的形式发布,并提供开源工具和使用示例。

关键创新:该数据集的关键创新在于其使用了先进的Aria Gen 2眼镜,能够同时记录多种模态的数据,包括高分辨率的视觉数据、精确的深度信息和高质量的音频数据。此外,该数据集还覆盖了多种日常活动场景,并考虑了不同用户和条件下的鲁棒性,从而提供了更全面、真实的第一人称视角感知数据。

关键设计:在数据采集方面,选择了具有代表性的日常活动场景,如清洁、烹饪、饮食、玩耍和户外散步。在数据处理方面,采用了先进的校准和同步算法,保证了不同模态数据之间的时间和空间一致性。此外,还提供了多种机器感知算法的输出,如目标检测、语义分割和姿态估计,方便研究人员直接使用。

📊 实验亮点

Aria Gen 2 Pilot Dataset 提供了五个主要场景的全面数据:清洁、烹饪、饮食、玩耍和户外散步。数据集中包含了原始传感器数据以及各种机器感知算法的输出结果。该数据集展示了设备在不同用户和条件下感知佩戴者、周围环境以及佩戴者与环境之间交互的能力。

🎯 应用场景

该数据集可广泛应用于机器人导航、增强现实、虚拟现实、人机交互等领域。例如,可以利用该数据集训练机器人理解人类的活动意图,从而实现更智能的辅助和协作。在增强现实和虚拟现实中,可以利用该数据集构建更逼真的虚拟环境,并实现更自然的人机交互。此外,该数据集还可以用于研究人类行为模式,从而为健康监测、安全预警等应用提供支持。

📄 摘要(原文)

The Aria Gen 2 Pilot Dataset (A2PD) is an egocentric multimodal open dataset captured using the state-of-the-art Aria Gen 2 glasses. To facilitate timely access, A2PD is released incrementally with ongoing dataset enhancements. The initial release features Dia'ane, our primary subject, who records her daily activities alongside friends, each equipped with Aria Gen 2 glasses. It encompasses five primary scenarios: cleaning, cooking, eating, playing, and outdoor walking. In each of the scenarios, we provide comprehensive raw sensor data and output data from various machine perception algorithms. These data illustrate the device's ability to perceive the wearer, the surrounding environment, and interactions between the wearer and the environment, while maintaining robust performance across diverse users and conditions. The A2PD is publicly available at projectaria.com, with open-source tools and usage examples provided in Project Aria Tools.