EndoGSim: Physics-Aware 4D Dynamic Endoscopic Scene Simulations via MLLM-Guided Gaussian Splatting
作者: Changjing Liu, Yiming Huang, Long Bai, Beilei Cui, Hongliang Ren
分类: cs.CV
发布日期: 2026-05-15
备注: Early Accepted by MICCAI 2026
💡 一句话要点
EndoGSim:基于MLLM引导的高斯溅射实现物理感知的4D动态内窥镜场景仿真
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内窥镜仿真 物理感知 4D高斯溅射 多模态大语言模型 材料点方法
📋 核心要点
- 现有内窥镜场景重建方法主要关注视觉效果,缺乏物理描述,难以进行逼真的物理仿真。
- 提出EndoGSim框架,利用MLLM引导的高斯溅射,实现内窥镜场景的物理感知重建和仿真。
- 实验表明,该框架在仿真保真度和物理精度上优于现有方法,有望推动机器人辅助手术应用。
📝 摘要(中文)
本文提出了一种统一的框架,通过多模态大型语言模型(MLLM)引导的高斯溅射,实现内窥镜场景的物理感知重建和物理仿真,这对于增强下游任务和提升手术效果至关重要。该方法利用与预训练分割和深度估计相结合的4D高斯溅射(4DGS)来表示可变形组织和工具。为了实现物理属性的自动推断,引入了一个对象级的材料场,该材料场通过MLLM初始化材料参数,并通过可微的材料点方法(MPM)在渲染图像和光流的联合监督下对其进行细化。在开源和内部数据集上的验证表明,与最先进的方法相比,该框架实现了卓越的仿真保真度和物理精度,突显了其在推进机器人辅助手术应用方面的潜力。
🔬 方法详解
问题定义:现有机器人辅助微创手术中,高保真动态内窥镜场景的重建和仿真至关重要。然而,现有方法主要集中在视觉重建,缺乏对场景的物理描述,难以进行真实的物理仿真,限制了其在手术规划、机器人控制等下游任务中的应用。因此,需要一种能够同时实现高精度视觉重建和物理属性推断的方法。
核心思路:本文的核心思路是利用多模态大型语言模型(MLLM)的知识,结合4D高斯溅射(4DGS)的强大重建能力,实现内窥镜场景的物理感知重建和仿真。通过MLLM初始化场景中物体的物理属性,并利用可微的材料点方法(MPM)进行优化,从而实现物理属性的自动推断和高精度仿真。
技术框架:EndoGSim框架主要包含以下几个模块:1) 4D高斯溅射(4DGS)模块,用于动态场景的视觉重建;2) 预训练分割和深度估计模块,用于提取场景中的物体信息和深度信息;3) MLLM引导的材料场初始化模块,用于根据场景内容初始化物体的物理属性;4) 可微的材料点方法(MPM)模块,用于在渲染图像和光流的联合监督下,优化物体的物理属性。整个流程首先利用4DGS进行场景重建,然后利用预训练模型提取物体信息,接着利用MLLM初始化物理属性,最后利用MPM进行优化,最终实现物理感知的动态场景仿真。
关键创新:本文最重要的技术创新点在于引入了MLLM来初始化场景中物体的物理属性。与传统方法相比,这种方法能够利用MLLM的先验知识,自动推断出物体的材料参数,避免了手动设置参数的繁琐过程。此外,通过可微的MPM进行优化,可以进一步提高物理属性的精度,从而实现更逼真的物理仿真。
关键设计:在材料场初始化模块中,使用了CLIP模型将图像信息和文本信息编码到同一空间,然后利用MLLM进行推理,得到物体的材料参数。在MPM模块中,使用了基于梯度的优化算法,通过最小化渲染图像和光流的误差,来优化物体的物理属性。损失函数包括渲染损失和光流损失,其中渲染损失用于保证视觉效果的逼真度,光流损失用于保证物理仿真的准确性。
🖼️ 关键图片
📊 实验亮点
在开源和内部数据集上的实验结果表明,EndoGSim框架在仿真保真度和物理精度上均优于现有方法。具体而言,与state-of-the-art方法相比,该框架在视觉重建指标(如PSNR和SSIM)和物理仿真指标(如光流误差)上均取得了显著提升,验证了其有效性和优越性。
🎯 应用场景
该研究成果可应用于机器人辅助微创手术的训练、规划和控制等领域。通过高保真的物理仿真,医生可以在虚拟环境中进行手术练习,提高手术技能。此外,该方法还可以用于手术规划,帮助医生选择最佳的手术路径和策略。在机器人控制方面,该方法可以为机器人提供更准确的环境信息,从而实现更精确的操作。
📄 摘要(原文)
In robot-assisted minimally invasive surgery, high-fidelity dynamic endoscopic scene reconstruction and simulation are crucial to enhancing downstream tasks and advancing surgical outcomes. However, existing methods primarily focus on visual reconstruction, lacking physics-based descriptions of the scene required for realistic simulation. We propose a unified framework that achieves physics-aware reconstruction and physical simulation of endoscopic scenes through Multi-modal Large Language Models (MLLMs)-guided Gaussian Splatting. Our approach utilizes 4D Gaussian Splatting (4DGS) integrated with pre-trained segmentation and depth estimation to represent deformable tissues and tools. To achieve automatic inference of physical properties, we introduce an object-wise material field that initializes material parameters via MLLM and refines them through a differentiable Material Point Method (MPM) under joint supervision from rendered images and optical flow. Validated on both open-source and in-house datasets, our framework achieves superior simulation fidelity and physical accuracy compared to state-of-the-art methods, underscoring its potential to advance robot-assisted surgical applications.