A New People-Object Interaction Dataset and NVS Benchmarks
作者: Shuai Guo, Houqiang Zhong, Qiuwen Wang, Ziyu Chen, Yijie Gao, Jiajing Yuan, Chenyu Zhang, Rong Xie, Li Song
分类: cs.CV
发布日期: 2024-09-03
💡 一句话要点
提出一个多人/单人交互新数据集,并建立基于该数据集的新视角合成(NVS)基准。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人-物交互 新视角合成 RGB-D视频 多视角数据 数据集 SMPL模型 基准测试
📋 核心要点
- 现有人-物交互数据集主要由静态数据组成,视角有限,且通常只包含RGB图像或视频,以及单人和物体之间的交互。
- 该论文构建了一个包含多视角RGB-D视频的人-物交互数据集,并提供了相机参数、SMPL模型等信息,为NVS研究提供高质量数据。
- 论文在提出的数据集上评估了当前最先进的NVS模型,并建立了基准,为后续研究提供参考标准。
📝 摘要(中文)
本文介绍了一个新的人-物交互数据集,该数据集包含38个序列,每个序列包含30个视角的单人或多人RGB-D视频。数据集中包含相机参数、前景掩码、SMPL模型、部分点云和网格文件。视频序列由30个Kinect Azure相机以4K分辨率和25 FPS的帧率同步采集,均匀环绕场景,时长为1到19秒。同时,我们在该数据集上评估了一些SOTA的NVS模型,建立了NVS基准。我们希望这项工作能够激发更多关于人-物交互的研究。
🔬 方法详解
问题定义:现有的人-物交互数据集在视角数量、数据类型(通常只有RGB)、场景复杂度和数据质量方面存在局限性。具体来说,视角单一、缺乏深度信息、光照条件复杂、同步性差、分辨率低等问题,阻碍了高质量的人-物交互研究,特别是基于新视角合成(NVS)的研究。
核心思路:该论文的核心思路是构建一个高质量、多视角、包含深度信息的人-物交互数据集,从而为NVS研究提供更可靠的数据基础。通过使用多个同步的Kinect Azure相机,从不同视角捕捉RGB-D视频,并提供相机参数、SMPL模型等信息,为NVS模型的训练和评估提供全面的数据支持。
技术框架:该数据集的构建流程主要包括以下几个阶段:1) 场景设计:设计包含单人或多人的交互场景。2) 数据采集:使用30个Kinect Azure相机同步采集RGB-D视频,相机均匀环绕场景。3) 数据处理:对采集到的数据进行处理,包括相机标定、前景分割、SMPL模型拟合、点云生成和网格重建。4) 数据标注:提供相机参数、前景掩码、SMPL模型参数、部分点云和网格文件。
关键创新:该论文的关键创新在于构建了一个高质量、多视角、包含深度信息的人-物交互数据集。与现有数据集相比,该数据集具有以下优势:1) 多视角:提供30个视角的同步RGB-D视频。2) 高质量:使用4K分辨率的相机进行采集,保证了图像质量。3) 包含深度信息:提供RGB-D视频,为NVS研究提供深度信息。4) 提供SMPL模型:提供SMPL模型参数,方便进行人体姿态估计和动画生成。
关键设计:在数据采集方面,使用了30个Kinect Azure相机,并均匀地环绕场景进行布置,以保证各个视角的覆盖范围。在数据处理方面,使用了标准相机标定方法获取相机参数,并使用现有的SMPL模型拟合算法获取人体姿态参数。在NVS基准评估方面,选择了多个SOTA的NVS模型进行评估,并使用常用的评价指标进行性能评估。
📊 实验亮点
论文在构建的数据集上评估了多个SOTA的NVS模型,并建立了基准。评估结果表明,现有的NVS模型在处理复杂的人-物交互场景时仍然存在挑战,例如在处理遮挡和光照变化时性能下降明显。这些基准结果为后续研究提供了参考,并指明了未来的研究方向。
🎯 应用场景
该数据集可应用于人-物交互相关的多个领域,例如:新视角合成、三维重建、人体姿态估计、动作识别、虚拟现实和增强现实等。高质量的数据集能够促进相关算法的开发和性能提升,从而推动这些领域的发展。此外,该数据集还可以用于训练和评估基于人工智能的交互式系统,例如机器人助手和智能家居系统。
📄 摘要(原文)
Recently, NVS in human-object interaction scenes has received increasing attention. Existing human-object interaction datasets mainly consist of static data with limited views, offering only RGB images or videos, mostly containing interactions between a single person and objects. Moreover, these datasets exhibit complexities in lighting environments, poor synchronization, and low resolution, hindering high-quality human-object interaction studies. In this paper, we introduce a new people-object interaction dataset that comprises 38 series of 30-view multi-person or single-person RGB-D video sequences, accompanied by camera parameters, foreground masks, SMPL models, some point clouds, and mesh files. Video sequences are captured by 30 Kinect Azures, uniformly surrounding the scene, each in 4K resolution 25 FPS, and lasting for 1$\sim$19 seconds. Meanwhile, we evaluate some SOTA NVS models on our dataset to establish the NVS benchmarks. We hope our work can inspire further research in humanobject interaction.