MultiEgo: A Multi-View Egocentric Video Dataset for 4D Scene Reconstruction

📄 arXiv: 2512.11301v1 📥 PDF

作者: Bate Li, Houqiang Zhong, Zhengxue Cheng, Qiang Hu, Qiang Wang, Li Song, Wenjun Zhang

分类: cs.CV

发布日期: 2025-12-12

备注: ACM MM 2025 Dataset Track

DOI: 10.1145/3746027.3758232


💡 一句话要点

提出MultiEgo数据集,用于多视角以自我中心视频的4D场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 多视角视频 以自我为中心 动态场景重建 4D重建 数据集 自由视点视频 社交互动

📋 核心要点

  1. 现有动态场景重建数据集缺乏多视角以自我为中心的视频数据,限制了相关研究的进展。
  2. MultiEgo数据集通过多视角同步采集以自我为中心的视频,并提供精确的姿态标注,为4D重建提供数据基础。
  3. 实验验证表明,MultiEgo数据集在自由视点视频应用中具有实用价值,可推动多视角动态场景重建研究。

📝 摘要(中文)

多视角以自我为中心的动态场景重建对于社交互动全息记录等应用具有重要的研究价值。然而,现有的重建数据集主要集中于静态多视角或单视角以自我为中心的设置,缺乏用于动态场景重建的多视角以自我为中心的数据集。因此,我们提出了MultiEgo,这是第一个用于4D动态场景重建的多视角以自我为中心的数据集。该数据集包含五个典型的社交互动场景:会议、表演和演示。每个场景提供五个由佩戴AR眼镜的参与者捕获的真实以自我为中心的视频。我们设计了一个基于硬件的数据采集系统和处理流程,实现了跨视角亚毫秒级的时间同步,并结合了精确的姿态标注。实验验证表明,我们的数据集在自由视点视频(FVV)应用中具有实际效用和有效性,使MultiEgo成为推进多视角以自我为中心的动态场景重建研究的基础资源。

🔬 方法详解

问题定义:现有的动态场景重建数据集主要集中于静态多视角或单视角以自我为中心的设置,缺乏多视角以自我为中心的数据集,这限制了相关研究的进展。具体来说,缺乏同步的多视角数据使得难以进行精确的4D动态场景重建,尤其是在社交互动等复杂场景中。

核心思路:论文的核心思路是构建一个高质量的多视角以自我为中心视频数据集,该数据集包含多个参与者佩戴AR眼镜同步采集的视频,并提供精确的姿态标注。通过提供这样的数据集,研究人员可以更容易地开发和评估新的4D动态场景重建算法。

技术框架:MultiEgo数据集的构建包括以下几个主要阶段:1) 数据采集:设计基于硬件的数据采集系统,确保亚毫秒级的时间同步。2) 场景选择:选择具有代表性的社交互动场景,如会议、表演和演示。3) 姿态标注:对采集的视频进行精确的姿态标注,为4D重建提供基础。4) 数据处理:对采集的数据进行清洗和校准,确保数据的质量。

关键创新:MultiEgo数据集的关键创新在于它是第一个用于4D动态场景重建的多视角以自我为中心的数据集。与现有数据集相比,MultiEgo提供了同步的多视角视频和精确的姿态标注,这使得研究人员可以更容易地开发和评估新的4D动态场景重建算法。

关键设计:数据采集系统采用硬件同步方案,确保亚毫秒级的时间同步。姿态标注采用高精度运动捕捉系统,提供精确的姿态信息。数据集包含五个典型的社交互动场景,涵盖了不同的动态场景类型。数据集还提供了详细的文档和示例代码,方便研究人员使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了MultiEgo数据集在自由视点视频(FVV)应用中的实用性和有效性。实验结果表明,基于MultiEgo数据集训练的模型可以生成高质量的自由视点视频,证明了该数据集对于推进多视角以自我为中心的动态场景重建研究具有重要价值。

🎯 应用场景

MultiEgo数据集可广泛应用于社交互动分析、虚拟现实、增强现实、机器人导航等领域。例如,可以利用该数据集开发自由视点视频应用,让用户可以从任意角度观看社交互动场景。此外,该数据集还可以用于训练机器人,使其能够更好地理解和参与社交互动。

📄 摘要(原文)

Multi-view egocentric dynamic scene reconstruction holds significant research value for applications in holographic documentation of social interactions. However, existing reconstruction datasets focus on static multi-view or single-egocentric view setups, lacking multi-view egocentric datasets for dynamic scene reconstruction. Therefore, we present MultiEgo, the first multi-view egocentric dataset for 4D dynamic scene reconstruction. The dataset comprises five canonical social interaction scenes: meetings, performances, and a presentation. Each scene provides five authentic egocentric videos captured by participants wearing AR glasses. We design a hardware-based data acquisition system and processing pipeline, achieving sub-millisecond temporal synchronization across views, coupled with accurate pose annotations. Experiment validation demonstrates the practical utility and effectiveness of our dataset for free-viewpoint video (FVV) applications, establishing MultiEgo as a foundational resource for advancing multi-view egocentric dynamic scene reconstruction research.