The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences
作者: Bria Long, Robert Z. Sparks, Violet Xiang, Stefan Stojanov, Zi Yin, Grace E. Keene, Alvin W. M. Tan, Steven Y. Feng, Chengxu Zhuang, Virginia A. Marchman, Daniel L. K. Yamins, Michael C. Frank
分类: cs.CV
发布日期: 2024-06-14 (更新: 2025-07-22)
备注: 9 pages, 3 figures, 4 tables and Appendix. Published in the Proceedings of the 8th Annual Conference on Cognitive Computational Neuroscience
💡 一句话要点
发布BabyView数据集:高分辨率婴儿第一视角日常视频,助力类人AI研究
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 第一视角视频 婴儿认知 类人AI 自监督学习 数据集 语音识别 视觉感知
📋 核心要点
- 现有儿童第一视角视频数据集稀缺,且分辨率低、元数据有限,难以有效研究儿童认知发展和训练类人AI。
- BabyView数据集提供高分辨率、长时间、纵向的婴儿第一视角视频,并包含陀螺仪/加速度计数据,模拟儿童真实训练数据。
- 通过在BabyView上评估语音、视觉模型,发现模型性能低于在精选数据集上训练的结果,凸显了类人AI的挑战。
📝 摘要(中文)
人类儿童在样本效率方面远超现代机器学习算法,以远少于当前模型的数据量在关键领域取得优异表现。这种“数据差距”是构建智能人工系统和理解人类发展的关键挑战。儿童经验的第一视角视频——他们的“训练数据”——是比较人类和模型以及开发弥合这一差距的算法创新的关键要素。然而,此类数据集很少,现有数据分辨率低,元数据有限,更重要的是,仅代表儿童经验的一小部分。本文发布了首个大型发育第一视角视频数据集——BabyView数据集,该数据集使用具有大垂直视野和陀螺仪/加速度计数据的高分辨率相机记录。这个868小时的数据集包括来自6个月至3岁儿童的纵向、家庭环境中的第一视角视频。我们为语音转录、说话人分离和人体姿态估计的评估提供黄金标准注释,并评估每个领域的模型。我们训练自监督语言和视觉模型,并评估它们对分布外任务的迁移,包括句法结构学习、对象识别、深度估计和图像分割。虽然每个领域的性能都随着数据集大小而扩展,但总体性能相对低于在精选数据集上训练的模型,尤其是在视觉领域。我们的数据集是构建鲁棒的、类人AI系统的开放挑战:此类系统如何在与人类相同规模和分布的训练数据上实现人类水平的成功?
🔬 方法详解
问题定义:论文旨在解决当前缺乏高质量、大规模儿童第一视角视频数据集的问题。现有数据集分辨率低、数据量小,难以用于训练和评估类人AI模型,也限制了对儿童认知发展机制的研究。现有方法难以在真实、非结构化的儿童日常环境中取得与人类相似的性能。
核心思路:论文的核心思路是构建一个大规模、高分辨率的儿童第一视角视频数据集,尽可能真实地模拟儿童的视觉输入。通过提供更接近人类训练数据的资源,促进类人AI算法的开发和对人类认知机制的理解。
技术框架:BabyView数据集的构建主要包括以下几个阶段:1) 数据采集:使用高分辨率相机和陀螺仪/加速度计记录6个月至3岁儿童的日常活动视频。2) 数据清洗和处理:对采集到的视频进行清洗,去除无效或质量差的片段。3) 数据标注:对视频进行语音转录、说话人分离和人体姿态估计等标注,为模型训练和评估提供ground truth。4) 模型评估:在BabyView数据集上评估现有语音和视觉模型的性能,并与在精选数据集上训练的结果进行比较。
关键创新:BabyView数据集的关键创新在于其大规模、高分辨率和纵向性。与现有数据集相比,BabyView数据集提供了更长时间、更真实的儿童日常活动视频,并包含陀螺仪/加速度计数据,可以用于研究儿童的运动感知和视觉感知之间的关系。此外,数据集的纵向性使得研究者可以跟踪儿童认知能力的发展轨迹。
关键设计:数据集使用高分辨率相机,保证了视频的清晰度。同时,为了捕捉儿童的运动信息,数据集还包含了陀螺仪和加速度计的数据。在数据标注方面,论文采用了黄金标准标注,保证了标注的准确性。此外,论文还提供了用于评估语音转录、说话人分离和人体姿态估计等任务的评估指标和脚本。
🖼️ 关键图片
📊 实验亮点
在BabyView数据集上,自监督语言和视觉模型的性能虽然随着数据集规模的增加而提升,但总体性能低于在精选数据集上训练的模型,尤其是在视觉领域。例如,在对象识别、深度估计和图像分割等任务上,模型的性能与人类水平仍有较大差距。这表明,即使拥有大规模的真实数据,类人AI的开发仍然面临巨大的挑战。
🎯 应用场景
BabyView数据集可应用于类人AI的开发,例如训练具有更强泛化能力的视觉和语言模型。该数据集还可用于研究儿童的认知发展,例如儿童如何学习语言、识别物体和理解场景。此外,该数据集还可用于开发辅助儿童学习和发展的智能玩具和应用程序。
📄 摘要(原文)
Human children far exceed modern machine learning algorithms in their sample efficiency, achieving high performance in key domains with much less data than current models. This ''data gap'' is a key challenge both for building intelligent artificial systems and for understanding human development. Egocentric video capturing children's experience--their ''training data''--is a key ingredient for comparison of humans and models and for the development of algorithmic innovations to bridge this gap. Yet there are few such datasets available, and extant data are low-resolution, have limited metadata, and importantly, represent only a small set of children's experiences. Here, we provide the first release of a large developmental egocentric video dataset--the BabyView dataset--recorded using a high-resolution camera with a large vertical field-of-view and gyroscope/accelerometer data. This 868 hour dataset includes egocentric videos from children spanning 6 months to 3 years of age in longitudinal, at-home contexts. We provide gold-standard annotations for the evaluation of speech transcription, speaker diarization, and human pose estimation, and evaluate models in each of these domains. We train self-supervised language and vision models and evaluate their transfer to out-of-distribution tasks, including syntactic structure learning, object recognition, depth estimation, and image segmentation. Although performance in each domain scales with dataset size, overall performance is relatively lower than when models are trained on curated datasets, especially in the visual domain. Our dataset stands as an open challenge for robust, human-like AI systems: how can such systems achieve human-levels of success on the same scale and distribution of training data as humans?