Instrument-Splatting++: Towards Controllable Surgical Instrument Digital Twin Using Gaussian Splatting
作者: Shuojue Yang, Zijian Wu, Chengjiaao Liao, Qian Li, Daiyun Shen, Chang Han Low, Septimiu E. Salcudean, Yueming Jin
分类: cs.RO
发布日期: 2026-03-24
备注: 10 pages, 9 figures
💡 一句话要点
提出Instrument-Splatting++,利用高斯溅射实现可控高精度手术器械数字孪生。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 手术器械数字孪生 高斯溅射 姿态估计 纹理学习 机器人辅助手术 Real2Sim 语义感知
📋 核心要点
- 机器人辅助手术中,高质量且可控的手术器械数字孪生至关重要,但现有方法难以兼顾高精度和可控性。
- Instrument-Splatting++通过分部件几何预训练、语义感知姿态估计和鲁棒纹理学习,实现了手术器械的高保真可控重建。
- 实验表明,该方法在光度质量和几何精度上优于现有技术,并能有效提升下游关键点检测任务的性能。
📝 摘要(中文)
本文提出Instrument-Splatting++,一个单目3D高斯溅射(3DGS)框架,旨在重建手术器械成为完全可控且高保真的高斯资产。该流程首先进行分部件的几何预训练,将CAD先验注入高斯基元,并赋予该表示部件感知的语义渲染能力。在此基础上,提出了一种语义感知的姿态估计和跟踪(SAPET)方法,从无姿态的内窥镜视频中恢复每帧的6自由度姿态和关节角度,其中纯粹从合成语义训练的夹爪尖端网络提供了鲁棒的监督,而松弛的正则化抑制了奇异的关节运动。最后,引入了鲁棒纹理学习(RTL),交替进行姿态细化和鲁棒外观优化,减轻了纹理学习期间的姿态噪声。该框架可以执行姿态估计并从无姿态视频中学习逼真的纹理。在从EndoVis17/18、SAR-RARP和一个内部数据集提取的序列上验证了该方法,表明其光度质量优于最先进的基线,并且几何精度有所提高。进一步展示了一个下游关键点检测任务,其中来自可控器械高斯体的未见姿态数据增强提高了性能。
🔬 方法详解
问题定义:现有方法在重建手术器械数字孪生时,难以同时保证重建质量(高保真度)和可控性(能够改变器械的姿态和关节角度)。尤其是在从内窥镜视频中进行重建时,由于缺乏精确的姿态信息,纹理学习容易受到噪声的影响,导致重建效果不佳。
核心思路:论文的核心思路是将3D高斯溅射(3DGS)与CAD先验知识相结合,通过分部件的几何预训练,为高斯基元注入形状信息,并利用语义信息进行姿态估计和纹理优化。这种方法能够在缺乏精确姿态信息的情况下,实现手术器械的高质量重建和精确的姿态控制。
技术框架:Instrument-Splatting++框架包含三个主要阶段:1) 分部件几何预训练:利用CAD模型对高斯基元进行初始化,并赋予其部件感知的语义信息。2) 语义感知的姿态估计和跟踪(SAPET):利用合成数据训练的夹爪尖端网络,从内窥镜视频中估计每帧的6自由度姿态和关节角度。3) 鲁棒纹理学习(RTL):交替进行姿态细化和纹理优化,以减轻姿态噪声对纹理学习的影响。
关键创新:该方法最重要的创新点在于将3D高斯溅射与CAD先验知识和语义信息相结合,实现了手术器械的高质量可控重建。与现有方法相比,该方法能够在缺乏精确姿态信息的情况下,学习到更鲁棒的纹理,并实现更精确的姿态控制。
关键设计:在分部件几何预训练阶段,使用CAD模型初始化高斯基元的位置和形状,并赋予其部件ID。在SAPET阶段,使用合成数据训练一个夹爪尖端网络,用于预测夹爪尖端的位置,并将其作为姿态估计的监督信号。在RTL阶段,使用一个鲁棒的损失函数来优化纹理,以减轻姿态噪声的影响。此外,还使用了一个松弛的正则化项来抑制奇异的关节运动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Instrument-Splatting++在EndoVis17/18、SAR-RARP和内部数据集上,光度质量优于现有方法,几何精度也有所提高。此外,通过使用该方法生成的数据进行数据增强,下游关键点检测任务的性能得到了显著提升,验证了该方法的有效性和实用性。
🎯 应用场景
该研究成果可应用于机器人辅助手术的Real2Sim仿真,生成逼真的合成数据,用于训练和评估手术机器人的感知和控制算法。此外,该技术还可以用于手术器械的设计和优化,以及手术技能的培训和评估。未来,该技术有望推动机器人辅助手术的智能化和自动化。
📄 摘要(原文)
High-quality and controllable digital twins of surgical instruments are critical for Real2Sim in robot-assisted surgery, as they enable realistic simulation, synthetic data generation, and perception learning under novel poses. We present Instrument-Splatting++, a monocular 3D Gaussian Splatting (3DGS) framework that reconstructs surgical instruments as a fully controllable Gaussian asset with high fidelity. Our pipeline starts with part-wise geometry pretraining that injects CAD priors into Gaussian primitives and equips the representation with part-aware semantic rendering. Built on the pretrained model, we propose a semantics-aware pose estimation and tracking (SAPET) method to recover per-frame 6-DoF pose and joint angles from unposed endoscopic videos, where a gripper-tip network trained purely from synthetic semantics provides robust supervision and a loose regularization suppresses singular articulations. Finally, we introduce Robust Texture Learning (RTL), which alternates pose refinement and robust appearance optimization, mitigating pose noise during texture learning. The proposed framework can perform pose estimation and learn realistic texture from unposed videos. We validate our method on sequences extracted from EndoVis17/18, SAR-RARP, and an in-house dataset, showing superior photometric quality and improved geometric accuracy over state-of-the-art baselines. We further demonstrate a downstream keypoint detection task where unseen-pose data augmentation from our controllable instrument Gaussian improves performance.