EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision
作者: Yiming Zhao, Taein Kwon, Paul Streli, Marc Pollefeys, Christian Holz
分类: cs.CV, cs.HC
发布日期: 2024-09-03 (更新: 2024-12-04)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
EgoPressure:提出用于手部压力和姿态估计的自中心视觉数据集
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 自中心视觉 手部姿态估计 压力估计 人机交互 数据集 多视图学习 序列优化
📋 核心要点
- 从自中心视角估计手部与物体的交互(包括接触和压力)极具挑战,主要原因是缺乏同时提供精确手部姿态和详细压力信息的数据集。
- EgoPressure数据集通过多相机系统同步捕捉RGB图像、深度图和压力信息,并提出多视图序列优化方法获得精确的手部姿态网格。
- 论文提供了基于RGB图像的压力估计基线模型,并探索了手部姿态和压力信息的联合估计,实验证明两者在理解手部-物体交互中具有互补性。
📝 摘要(中文)
本文介绍了一个名为EgoPressure的新型自中心数据集,用于捕捉详细的触摸接触和压力交互。EgoPressure为每个接触点提供高分辨率的压力强度标注,并包含通过我们提出的基于多视图、序列优化的方法处理来自8相机捕捉设备的数据获得的精确手部姿态网格。该数据集包含来自21名参与者的5小时记录交互,由一个头戴式和七个固定Kinect相机同时采集,以30 Hz的频率获取RGB图像和深度图。为了支持未来的研究和基准测试,我们提出了几个基线模型,用于从RGB图像估计外部表面上的施加压力,无论是否具有手部姿态信息。我们进一步探索了手部网格和施加压力的联合估计。实验表明,压力和手部姿态对于理解手部-物体交互是互补的。
🔬 方法详解
问题定义:现有方法缺乏同时提供精确手部姿态和详细压力信息的数据集,这使得从自中心视角理解手部与物体的交互(包括接触和压力)变得困难。已有的数据集通常只关注手部姿态估计,或者压力信息的标注不够精细,无法满足混合现实和机器人等应用的需求。
核心思路:论文的核心思路是构建一个高质量的自中心视觉数据集,该数据集不仅包含RGB图像和深度图,还包含精确的手部姿态网格和高分辨率的压力强度标注。通过多相机系统同步捕捉这些信息,并提出多视图序列优化方法来提高手部姿态估计的准确性。
技术框架:EgoPressure数据集的采集系统包括一个头戴式相机和七个固定Kinect相机,用于同步捕捉RGB图像和深度图。同时,使用压力传感器获取手部与物体接触时的压力信息。数据处理流程包括:1) 多视图数据同步和校准;2) 基于多视图序列优化的手部姿态估计;3) 压力信息的标注和校准;4) 数据集的组织和发布。论文还提供了基于RGB图像的压力估计基线模型,以及手部姿态和压力信息的联合估计模型。
关键创新:EgoPressure数据集的关键创新在于:1) 提供了高分辨率的压力强度标注,可以更精确地反映手部与物体的交互;2) 提出了基于多视图序列优化的手部姿态估计方法,提高了手部姿态估计的准确性;3) 数据集包含了来自多个参与者的多种交互场景,具有较高的多样性和泛化能力。
关键设计:多视图序列优化方法利用了多个相机的信息,通过最小化重投影误差和形状先验误差来优化手部姿态。压力估计基线模型使用了卷积神经网络,输入为RGB图像,输出为压力强度图。手部姿态和压力信息的联合估计模型将手部姿态作为先验信息,用于指导压力估计。
🖼️ 关键图片
📊 实验亮点
论文提出的EgoPressure数据集包含来自21名参与者的5小时记录交互,由一个头戴式和七个固定Kinect相机以30 Hz的频率同步采集RGB图像和深度图。实验结果表明,压力和手部姿态对于理解手部-物体交互是互补的,联合估计可以提高交互理解的准确性。论文还提供了压力估计的基线模型,为后续研究提供了参考。
🎯 应用场景
EgoPressure数据集可广泛应用于混合现实、虚拟现实和机器人等领域。例如,在AR/VR中,可以利用该数据集训练模型,实现更自然、更逼真的手部交互体验。在机器人领域,可以利用该数据集训练机器人,使其能够更好地理解和模仿人类的手部操作,从而提高机器人的操作能力和智能化水平。此外,该数据集还可以用于研究人机交互、手部动作识别等问题。
📄 摘要(原文)
Touch contact and pressure are essential for understanding how humans interact with and manipulate objects, insights which can significantly benefit applications in mixed reality and robotics. However, estimating these interactions from an egocentric camera perspective is challenging, largely due to the lack of comprehensive datasets that provide both accurate hand poses on contacting surfaces and detailed annotations of pressure information. In this paper, we introduce EgoPressure, a novel egocentric dataset that captures detailed touch contact and pressure interactions. EgoPressure provides high-resolution pressure intensity annotations for each contact point and includes accurate hand pose meshes obtained through our proposed multi-view, sequence-based optimization method processing data from an 8-camera capture rig. Our dataset comprises 5 hours of recorded interactions from 21 participants captured simultaneously by one head-mounted and seven stationary Kinect cameras, which acquire RGB images and depth maps at 30 Hz. To support future research and benchmarking, we present several baseline models for estimating applied pressure on external surfaces from RGB images, with and without hand pose information. We further explore the joint estimation of the hand mesh and applied pressure. Our experiments demonstrate that pressure and hand pose are complementary for understanding hand-object interactions. ng of hand-object interactions in AR/VR and robotics research. Project page: \url{https://yiming-zhao.github.io/EgoPressure/}.