Instrument-Splatting: Controllable Photorealistic Reconstruction of Surgical Instruments Using Gaussian Splatting

📄 arXiv: 2503.04082v2 📥 PDF

作者: Shuojue Yang, Zijian Wu, Mingxuan Hong, Qian Li, Daiyun Shen, Septimiu E. Salcudean, Yueming Jin

分类: cs.CV, cs.RO

发布日期: 2025-03-06 (更新: 2025-03-15)

备注: 11 pages, 5 figures


💡 一句话要点

提出Instrument-Splatting,实现手术器械可控逼真的3D高斯重建

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 手术器械重建 3D高斯溅射 Real2Sim 姿态跟踪 几何预训练

📋 核心要点

  1. 手术AI和自主性的快速发展使得Real2Sim技术日益重要,但现有方法难以兼顾视觉逼真度和可控性。
  2. Instrument-Splatting通过几何预训练将高斯点云绑定到器械部件网格,并利用正向运动学实现对高斯的可控操作。
  3. 该方法设计了一种基于语义嵌入高斯的姿态跟踪方法,在无姿态视频中也能准确学习纹理并实现逼真渲染,实验验证了其有效性。

📝 摘要(中文)

本文提出了一种名为Instrument-Splatting的Real2Sim方法,该方法利用3D高斯溅射技术,从单目手术视频中对手术器械进行完全可控的3D重建。为了保持高视觉保真度和可操作性,我们引入了几何预训练,将高斯点云绑定到具有精确几何先验的部分网格上,并定义了正向运动学来控制高斯,使其像真实器械一样灵活。此外,为了处理无姿态视频,我们设计了一种新颖的器械姿态跟踪方法,该方法利用语义嵌入的高斯,以渲染-比较的方式稳健地细化每帧器械姿态和关节状态,这使得我们的器械高斯能够准确地学习纹理并实现逼真的渲染。我们在2个公开的手术视频和4个在离体组织和绿幕上收集的视频上验证了我们的方法。定量和定性评估表明了该方法的有效性和优越性。

🔬 方法详解

问题定义:论文旨在解决从单目手术视频中重建手术器械的3D模型,并实现对重建模型的可控操作的问题。现有方法通常难以兼顾视觉逼真度和可控性,或者需要精确的器械姿态信息,限制了其在真实手术场景中的应用。

核心思路:论文的核心思路是利用3D高斯溅射(3D Gaussian Splatting)技术,将手术器械表示为一组带有属性的高斯分布,并通过几何预训练和姿态跟踪方法,实现对高斯分布的精确控制和纹理学习,从而获得逼真且可控的3D重建模型。

技术框架:Instrument-Splatting方法主要包含以下几个阶段:1) 几何预训练:利用器械的部件网格作为几何先验,将高斯点云绑定到网格上,从而保证重建模型的几何结构。2) 正向运动学:定义正向运动学模型,用于控制高斯点云的运动,使其能够像真实器械一样灵活地操作。3) 姿态跟踪:设计一种基于语义嵌入高斯的姿态跟踪方法,通过渲染-比较的方式,稳健地估计每帧图像中器械的姿态和关节状态。4) 纹理学习:利用估计的姿态信息,准确地学习高斯分布的纹理,从而实现逼真的渲染效果。

关键创新:该方法最重要的技术创新点在于将3D高斯溅射技术应用于手术器械的3D重建,并结合几何预训练和姿态跟踪方法,实现了对重建模型的高精度控制和逼真渲染。与现有方法相比,该方法无需精确的器械姿态信息,并且能够同时保证视觉逼真度和可控性。

关键设计:在几何预训练阶段,论文使用Chamfer Distance作为损失函数,用于优化高斯点云的位置,使其与器械的部件网格对齐。在姿态跟踪阶段,论文使用渲染图像与真实图像之间的差异作为损失函数,并结合语义嵌入信息,用于优化器械的姿态和关节状态。具体的网络结构和参数设置在论文中有详细描述,但未在摘要中体现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在公开数据集和自采集数据集上进行了实验验证。定量结果表明,该方法在重建精度和渲染质量方面均优于现有方法。定性结果表明,该方法能够生成逼真且可控的手术器械3D模型,并且能够准确地跟踪器械的姿态和关节状态。具体性能数据未在摘要中体现,需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于手术模拟、机器人辅助手术、手术导航等领域。通过构建逼真且可控的手术器械3D模型,可以为手术训练提供更真实的模拟环境,提高手术机器人的操作精度,并为手术导航提供更准确的器械姿态信息,从而提高手术的安全性和有效性。未来,该技术有望应用于更广泛的医疗场景,例如远程手术和个性化手术方案设计。

📄 摘要(原文)

Real2Sim is becoming increasingly important with the rapid development of surgical artificial intelligence (AI) and autonomy. In this work, we propose a novel Real2Sim methodology, Instrument-Splatting, that leverages 3D Gaussian Splatting to provide fully controllable 3D reconstruction of surgical instruments from monocular surgical videos. To maintain both high visual fidelity and manipulability, we introduce a geometry pre-training to bind Gaussian point clouds on part mesh with accurate geometric priors and define a forward kinematics to control the Gaussians as flexible as real instruments. Afterward, to handle unposed videos, we design a novel instrument pose tracking method leveraging semantics-embedded Gaussians to robustly refine per-frame instrument poses and joint states in a render-and-compare manner, which allows our instrument Gaussian to accurately learn textures and reach photorealistic rendering. We validated our method on 2 publicly released surgical videos and 4 videos collected on ex vivo tissues and green screens. Quantitative and qualitative evaluations demonstrate the effectiveness and superiority of the proposed method.