HUP-3D: A 3D multi-view synthetic dataset for assisted-egocentric hand-ultrasound pose estimation

📄 arXiv: 2407.09215v1 📥 PDF

作者: Manuel Birlo, Razvan Caramalau, Philip J. "Eddie" Edwards, Brian Dromey, Matthew J. Clarkson, Danail Stoyanov

分类: cs.CV

发布日期: 2024-07-12

备注: https://conferences.miccai.org/2024/en/


💡 一句话要点

HUP-3D:用于辅助式手持超声姿态估计的三维多视角合成数据集

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 手持超声 姿态估计 合成数据集 混合现实 医学教育

📋 核心要点

  1. 现有方法在医学教育中缺乏对超声探头和手部姿态的精确估计,限制了混合现实教学应用的潜力。
  2. 论文提出HUP-3D数据集,通过合成数据的方式,着重图像多样性和复杂性,为手持超声探头姿态估计提供训练数据。
  3. 实验结果表明,使用HUP-3D数据集训练的模型在手-物体关键点误差方面取得了最低的误差,验证了数据集的有效性。

📝 摘要(中文)

本文提出了HUP-3D,一个用于产科超声中手持超声探头姿态估计的三维多视角多模态合成数据集。无标记的以自我为中心的3D关节姿态估计在基于混合现实的医学教育中具有潜在的应用价值。程序化地理解手和探头的运动,为定制化的指导和教学应用打开了大门。我们的数据集包含超过31k组RGB、深度和分割掩码帧,包括姿态相关的ground truth数据,并着重强调了图像的多样性和复杂性。采用基于相机视点的球体概念,使我们能够捕获各种视图,并使用预训练网络生成多个手部抓握姿势。此外,我们的方法包括一个基于软件的图像渲染概念,通过各种手和手臂纹理、光照条件和背景图像来增强多样性。我们使用最先进的学习模型验证了我们提出的数据集,并获得了最低的手-物体关键点误差。数据集和其他详细信息在补充材料中提供。我们的抓握生成和渲染流程的源代码将公开提供。

🔬 方法详解

问题定义:论文旨在解决产科超声中手持超声探头姿态估计的问题。现有方法缺乏足够的高质量训练数据,尤其是在多样性和复杂性方面,这限制了基于深度学习的姿态估计模型的性能。真实数据的获取成本高昂且难以标注,因此需要一种有效的数据生成方法。

核心思路:论文的核心思路是利用计算机图形学技术生成大规模、多样化的合成数据集,以弥补真实数据的不足。通过控制渲染参数,可以方便地生成具有不同手部纹理、光照条件和背景的图像,从而提高模型的泛化能力。此外,使用预训练网络生成手部抓握姿势,增加了数据集的真实感。

技术框架:HUP-3D数据集的生成流程主要包括以下几个阶段:1) 使用基于相机视点的球体概念,确定相机视角;2) 使用预训练网络生成手部抓握姿势;3) 使用软件渲染引擎,根据设定的参数(如手部纹理、光照条件、背景图像)渲染图像;4) 生成RGB、深度和分割掩码图像,并提供姿态相关的ground truth数据。

关键创新:论文的关键创新在于提出了一种基于软件渲染的合成数据生成方法,能够高效地生成大规模、多样化的手持超声探头姿态估计数据集。与传统的基于真实数据的训练方法相比,该方法具有成本低、可控性强等优点。此外,采用基于相机视点的球体概念和预训练网络生成手部抓握姿势,进一步提高了数据集的真实感和多样性。

关键设计:在渲染过程中,论文使用了多种手和手臂纹理、光照条件和背景图像,以增加数据集的多样性。具体参数设置未知,但强调了图像多样性和复杂性的重要性。损失函数和网络结构的选择取决于具体的姿态估计模型,论文使用state-of-the-art模型进行验证,但未提供具体细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文使用state-of-the-art学习模型验证了HUP-3D数据集的有效性,并获得了最低的手-物体关键点误差。虽然具体的性能数据和对比基线未知,但结果表明,该数据集能够有效地提高手持超声探头姿态估计模型的性能。

🎯 应用场景

该研究成果可应用于混合现实医学教育,例如辅助医生进行超声检查训练。通过精确的手部和探头姿态估计,可以为医生提供实时的操作指导和反馈,提高学习效率和操作准确性。此外,该技术还可以应用于远程医疗和手术机器人等领域,具有广阔的应用前景。

📄 摘要(原文)

We present HUP-3D, a 3D multi-view multi-modal synthetic dataset for hand-ultrasound (US) probe pose estimation in the context of obstetric ultrasound. Egocentric markerless 3D joint pose estimation has potential applications in mixed reality based medical education. The ability to understand hand and probe movements programmatically opens the door to tailored guidance and mentoring applications. Our dataset consists of over 31k sets of RGB, depth and segmentation mask frames, including pose related ground truth data, with a strong emphasis on image diversity and complexity. Adopting a camera viewpoint-based sphere concept allows us to capture a variety of views and generate multiple hand grasp poses using a pre-trained network. Additionally, our approach includes a software-based image rendering concept, enhancing diversity with various hand and arm textures, lighting conditions, and background images. Furthermore, we validated our proposed dataset with state-of-the-art learning models and we obtained the lowest hand-object keypoint errors. The dataset and other details are provided with the supplementary material. The source code of our grasp generation and rendering pipeline will be made publicly available.