The CASTLE 2024 Dataset: Advancing the Art of Multimodal Understanding

📄 arXiv: 2503.17116v1 📥 PDF

作者: Luca Rossetto, Werner Bailer, Duc-Tien Dang-Nguyen, Graham Healy, Björn Þór Jónsson, Onanong Kongmeesub, Hoang-Bao Le, Stevan Rudinac, Klaus Schöffmann, Florian Spiess, Allie Tran, Minh-Triet Tran, Quang-Linh Tran, Cathal Gurrin

分类: cs.MM, cs.AI, cs.CV, cs.IR

发布日期: 2025-03-21

备注: 7 pages, 6 figures, dataset available via https://castle-dataset.github.io/

期刊: 2025 MM'25: Proceedings of the 33rd ACM International Conference on Multimedia (pp. 12629-12635)

DOI: 10.1145/3746027.3758199

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

CASTLE 2024:一个用于推进多模态理解的全新第一人称和第三人称视角视频数据集

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 第一人称视角视频 第三人称视角视频 行为识别 场景理解 视频理解 无审查数据 时间对齐

📋 核心要点

  1. 现有以自我为中心的视频数据集大多局限于单一视角,限制了多模态理解研究的深入。
  2. CASTLE 2024数据集提供同步的第一人称和第三人称视角视频、音频及传感器数据,为多模态研究提供丰富资源。
  3. 该数据集包含超过600小时的UHD视频,且无任何审查,保证了数据质量和研究的可靠性。

📝 摘要(中文)

本文介绍了CASTLE 2024数据集,这是一个多模态数据集,包含来自15个时间对齐来源的自我中心(第一人称视角)和外中心(第三人称视角)的视频和音频,以及其他传感器流和辅助数据。该数据集由志愿者参与者在固定位置记录了四天,包括10名参与者的视角,以及5个固定摄像机提供的外中心视角。整个数据集包含超过600小时的UHD视频,以每秒50帧的速度录制。与其他数据集相比,CASTLE 2024不包含任何部分审查,例如模糊的面部或失真的音频。该数据集可通过https://castle-dataset.github.io/获取。

🔬 方法详解

问题定义:现有的以自我为中心的视频数据集通常只包含单一视角,缺乏多视角信息融合,限制了对场景和行为的全面理解。此外,部分数据集存在审查(如模糊人脸),影响了相关研究的准确性。

核心思路:CASTLE 2024数据集的核心思路是提供一个大规模、多模态、多视角的视频数据集,包含第一人称和第三人称视角,以及音频和传感器数据,从而促进多模态理解的研究。通过提供无审查的数据,保证了研究的可靠性。

技术框架:CASTLE 2024数据集的构建涉及多个关键步骤。首先,招募志愿者参与者,并在固定位置进行数据采集。其次,使用10个第一人称视角相机和5个第三人称视角相机同步录制视频。同时,记录音频和其他传感器数据。最后,对采集到的数据进行时间对齐和整理,形成最终的数据集。

关键创新:CASTLE 2024数据集的关键创新在于其多模态和多视角的特性。它同时包含第一人称和第三人称视角,以及音频和传感器数据,为多模态融合提供了丰富的资源。此外,该数据集不包含任何审查,保证了数据的完整性和可靠性。

关键设计:该数据集包含超过600小时的UHD视频,以50帧/秒的帧率录制,保证了视频质量。数据集的采集过程经过精心设计,确保了数据的时间同步性和准确性。此外,数据集的组织方式便于研究人员访问和使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CASTLE 2024数据集提供超过600小时的UHD视频,包含10个第一人称视角和5个第三人称视角,以及同步的音频和传感器数据。与其他数据集相比,CASTLE 2024不包含任何审查,保证了数据的完整性和可靠性。该数据集为多模态理解研究提供了前所未有的资源。

🎯 应用场景

CASTLE 2024数据集可广泛应用于行为识别、场景理解、人机交互、机器人导航等领域。该数据集能够促进多模态融合算法的开发和评估,提升相关应用的性能和鲁棒性。未来,基于该数据集的研究有望推动智能监控、辅助驾驶、虚拟现实等领域的发展。

📄 摘要(原文)

Egocentric video has seen increased interest in recent years, as it is used in a range of areas. However, most existing datasets are limited to a single perspective. In this paper, we present the CASTLE 2024 dataset, a multimodal collection containing ego- and exo-centric (i.e., first- and third-person perspective) video and audio from 15 time-aligned sources, as well as other sensor streams and auxiliary data. The dataset was recorded by volunteer participants over four days in a fixed location and includes the point of view of 10 participants, with an additional 5 fixed cameras providing an exocentric perspective. The entire dataset contains over 600 hours of UHD video recorded at 50 frames per second. In contrast to other datasets, CASTLE 2024 does not contain any partial censoring, such as blurred faces or distorted audio. The dataset is available via https://castle-dataset.github.io/.