Instrument-Splatting: Controllable Photorealistic Reconstruction of Surgical Instruments Using Gaussian Splatting

作者: Shuojue Yang, Zijian Wu, Mingxuan Hong, Qian Li, Daiyun Shen, Septimiu E. Salcudean, Yueming Jin

分类: cs.CV, cs.RO

发布日期: 2025-03-06 (更新: 2025-03-15)

备注: 11 pages, 5 figures

💡 一句话要点

提出Instrument-Splatting，实现手术器械可控逼真的3D高斯重建

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 手术器械重建 3D高斯溅射 Real2Sim 姿态跟踪 几何预训练

📋 核心要点

手术AI和自主性的快速发展使得Real2Sim技术日益重要，但现有方法难以兼顾视觉逼真度和可控性。
Instrument-Splatting通过几何预训练将高斯点云绑定到器械部件网格，并利用正向运动学实现对高斯的可控操作。
该方法设计了一种基于语义嵌入高斯的姿态跟踪方法，在无姿态视频中也能准确学习纹理并实现逼真渲染，实验验证了其有效性。

📝 摘要（中文）

本文提出了一种名为Instrument-Splatting的Real2Sim方法，该方法利用3D高斯溅射技术，从单目手术视频中对手术器械进行完全可控的3D重建。为了保持高视觉保真度和可操作性，我们引入了几何预训练，将高斯点云绑定到具有精确几何先验的部分网格上，并定义了正向运动学来控制高斯，使其像真实器械一样灵活。此外，为了处理无姿态视频，我们设计了一种新颖的器械姿态跟踪方法，该方法利用语义嵌入的高斯，以渲染-比较的方式稳健地细化每帧器械姿态和关节状态，这使得我们的器械高斯能够准确地学习纹理并实现逼真的渲染。我们在2个公开的手术视频和4个在离体组织和绿幕上收集的视频上验证了我们的方法。定量和定性评估表明了该方法的有效性和优越性。

🔬 方法详解

问题定义：论文旨在解决从单目手术视频中重建手术器械的3D模型，并实现对重建模型的可控操作的问题。现有方法通常难以兼顾视觉逼真度和可控性，或者需要精确的器械姿态信息，限制了其在真实手术场景中的应用。

核心思路：论文的核心思路是利用3D高斯溅射（3D Gaussian Splatting）技术，将手术器械表示为一组带有属性的高斯分布，并通过几何预训练和姿态跟踪方法，实现对高斯分布的精确控制和纹理学习，从而获得逼真且可控的3D重建模型。

技术框架：Instrument-Splatting方法主要包含以下几个阶段：1) 几何预训练：利用器械的部件网格作为几何先验，将高斯点云绑定到网格上，从而保证重建模型的几何结构。2) 正向运动学：定义正向运动学模型，用于控制高斯点云的运动，使其能够像真实器械一样灵活地操作。3) 姿态跟踪：设计一种基于语义嵌入高斯的姿态跟踪方法，通过渲染-比较的方式，稳健地估计每帧图像中器械的姿态和关节状态。4) 纹理学习：利用估计的姿态信息，准确地学习高斯分布的纹理，从而实现逼真的渲染效果。

关键创新：该方法最重要的技术创新点在于将3D高斯溅射技术应用于手术器械的3D重建，并结合几何预训练和姿态跟踪方法，实现了对重建模型的高精度控制和逼真渲染。与现有方法相比，该方法无需精确的器械姿态信息，并且能够同时保证视觉逼真度和可控性。

关键设计：在几何预训练阶段，论文使用Chamfer Distance作为损失函数，用于优化高斯点云的位置，使其与器械的部件网格对齐。在姿态跟踪阶段，论文使用渲染图像与真实图像之间的差异作为损失函数，并结合语义嵌入信息，用于优化器械的姿态和关节状态。具体的网络结构和参数设置在论文中有详细描述，但未在摘要中体现。

🖼️ 关键图片

📊 实验亮点

论文在公开数据集和自采集数据集上进行了实验验证。定量结果表明，该方法在重建精度和渲染质量方面均优于现有方法。定性结果表明，该方法能够生成逼真且可控的手术器械3D模型，并且能够准确地跟踪器械的姿态和关节状态。具体性能数据未在摘要中体现，需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于手术模拟、机器人辅助手术、手术导航等领域。通过构建逼真且可控的手术器械3D模型，可以为手术训练提供更真实的模拟环境，提高手术机器人的操作精度，并为手术导航提供更准确的器械姿态信息，从而提高手术的安全性和有效性。未来，该技术有望应用于更广泛的医疗场景，例如远程手术和个性化手术方案设计。

📄 摘要（原文）

Real2Sim is becoming increasingly important with the rapid development of surgical artificial intelligence (AI) and autonomy. In this work, we propose a novel Real2Sim methodology, Instrument-Splatting, that leverages 3D Gaussian Splatting to provide fully controllable 3D reconstruction of surgical instruments from monocular surgical videos. To maintain both high visual fidelity and manipulability, we introduce a geometry pre-training to bind Gaussian point clouds on part mesh with accurate geometric priors and define a forward kinematics to control the Gaussians as flexible as real instruments. Afterward, to handle unposed videos, we design a novel instrument pose tracking method leveraging semantics-embedded Gaussians to robustly refine per-frame instrument poses and joint states in a render-and-compare manner, which allows our instrument Gaussian to accurately learn textures and reach photorealistic rendering. We validated our method on 2 publicly released surgical videos and 4 videos collected on ex vivo tissues and green screens. Quantitative and qualitative evaluations demonstrate the effectiveness and superiority of the proposed method.

Instrument-Splatting: Controllable Photorealistic Reconstruction of Surgical Instruments Using Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理