Aria Gen 2 Pilot Dataset
作者: Chen Kong, James Fort, Aria Kang, Jonathan Wittmer, Simon Green, Tianwei Shen, Yipu Zhao, Cheng Peng, Gustavo Solaira, Andrew Berkovich, Nikhil Raina, Vijay Baiyya, Evgeniy Oleinik, Eric Huang, Fan Zhang, Julian Straub, Mark Schwesinger, Luis Pesqueira, Xiaqing Pan, Jakob Julian Engel, Carl Ren, Mingfei Yan, Richard Newcombe
分类: cs.CV, cs.AI, cs.HC, cs.LG, cs.RO
发布日期: 2025-10-17
💡 一句话要点
发布Aria Gen 2 Pilot Dataset:用于第一视角多模态感知研究
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一视角 多模态数据 Aria Gen 2 机器人 人机交互 增强现实 数据集
📋 核心要点
- 现有第一视角数据集在多模态感知和设备性能方面存在局限性,难以支持复杂场景下的研究。
- A2PD数据集利用Aria Gen 2眼镜,提供多模态传感器数据和机器感知算法输出,旨在促进相关研究。
- 该数据集包含五个日常场景,涵盖不同用户和条件,展示了设备在感知佩戴者、环境和交互方面的能力。
📝 摘要(中文)
Aria Gen 2 Pilot Dataset (A2PD) 是一个利用最先进的Aria Gen 2眼镜捕获的第一视角多模态开放数据集。为了方便及时访问,A2PD以增量方式发布,并不断增强数据集。初始版本以Dia'ane(主要受试者)为特色,她与朋友们一起记录日常生活,每个人都配备了Aria Gen 2眼镜。数据集涵盖五个主要场景:清洁、烹饪、饮食、玩耍和户外散步。在每个场景中,我们提供全面的原始传感器数据和来自各种机器感知算法的输出数据。这些数据展示了设备感知佩戴者、周围环境以及佩戴者与环境之间交互的能力,同时在不同的用户和条件下保持了强大的性能。A2PD可在projectaria.com公开获取,Project Aria Tools中提供了开源工具和使用示例。
🔬 方法详解
问题定义:现有第一视角数据集通常缺乏高质量的多模态数据,难以支持复杂场景下的环境理解、人机交互等研究。同时,不同设备在传感器配置和性能上存在差异,限制了研究成果的泛化能力。A2PD旨在提供一个高质量、多模态、开放的第一视角数据集,以促进相关领域的研究。
核心思路:A2PD的核心思路是利用先进的Aria Gen 2眼镜,记录佩戴者在日常活动中的多模态数据,包括视觉、听觉、运动等信息。通过提供原始传感器数据和机器感知算法的输出,为研究者提供了丰富的研究素材。同时,数据集涵盖了不同的用户和场景,提高了研究成果的泛化能力。
技术框架:A2PD数据集的构建主要包括数据采集、数据处理和数据发布三个阶段。数据采集阶段使用Aria Gen 2眼镜记录佩戴者在不同场景下的多模态数据。数据处理阶段对原始数据进行清洗、校准和同步,并运行机器感知算法生成相应的输出。数据发布阶段将处理后的数据以开放格式发布,并提供相应的工具和示例。
关键创新:A2PD的关键创新在于其使用了先进的Aria Gen 2眼镜,该设备集成了多种传感器,能够提供高质量的多模态数据。此外,A2PD数据集涵盖了不同的用户和场景,提高了研究成果的泛化能力。同时,数据集以增量方式发布,并不断增强,能够及时反映最新的技术进展。
关键设计:Aria Gen 2眼镜集成了多个摄像头、麦克风、IMU等传感器,能够同步记录视觉、听觉、运动等信息。数据集的标注包括场景类别、物体识别、姿态估计等信息。数据以开放格式存储,并提供相应的API和工具,方便研究者使用。
🖼️ 关键图片
📊 实验亮点
A2PD数据集提供了五个主要场景的全面数据,包括清洁、烹饪、饮食、玩耍和户外散步。数据集不仅包含原始传感器数据,还提供了各种机器感知算法的输出,例如物体识别、姿态估计等。这些数据展示了设备在不同用户和条件下的强大性能,为相关研究提供了有力的支持。
🎯 应用场景
该数据集可应用于机器人导航、人机交互、增强现实、虚拟现实等领域。例如,可以利用该数据集训练机器人理解人类的意图,从而实现更自然的人机交互。此外,该数据集还可以用于开发更智能的AR/VR应用,例如,根据用户的视线和动作,动态调整虚拟场景。
📄 摘要(原文)
The Aria Gen 2 Pilot Dataset (A2PD) is an egocentric multimodal open dataset captured using the state-of-the-art Aria Gen 2 glasses. To facilitate timely access, A2PD is released incrementally with ongoing dataset enhancements. The initial release features Dia'ane, our primary subject, who records her daily activities alongside friends, each equipped with Aria Gen 2 glasses. It encompasses five primary scenarios: cleaning, cooking, eating, playing, and outdoor walking. In each of the scenarios, we provide comprehensive raw sensor data and output data from various machine perception algorithms. These data illustrate the device's ability to perceive the wearer, the surrounding environment, and interactions between the wearer and the environment, while maintaining robust performance across diverse users and conditions. The A2PD is publicly available at projectaria.com, with open-source tools and usage examples provided in Project Aria Tools.