EndoGSim: Physics-Aware 4D Dynamic Endoscopic Scene Simulations via MLLM-Guided Gaussian Splatting

作者: Changjing Liu, Yiming Huang, Long Bai, Beilei Cui, Hongliang Ren

分类: cs.CV

发布日期: 2026-05-15

备注: Early Accepted by MICCAI 2026

💡 一句话要点

EndoGSim：基于MLLM引导的高斯溅射实现物理感知的4D动态内窥镜场景仿真

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内窥镜仿真 物理感知 4D高斯溅射 多模态大语言模型 材料点方法

📋 核心要点

现有内窥镜场景重建方法主要关注视觉效果，缺乏物理描述，难以进行逼真的物理仿真。
提出EndoGSim框架，利用MLLM引导的高斯溅射，实现内窥镜场景的物理感知重建和仿真。
实验表明，该框架在仿真保真度和物理精度上优于现有方法，有望推动机器人辅助手术应用。

📝 摘要（中文）

本文提出了一种统一的框架，通过多模态大型语言模型（MLLM）引导的高斯溅射，实现内窥镜场景的物理感知重建和物理仿真，这对于增强下游任务和提升手术效果至关重要。该方法利用与预训练分割和深度估计相结合的4D高斯溅射（4DGS）来表示可变形组织和工具。为了实现物理属性的自动推断，引入了一个对象级的材料场，该材料场通过MLLM初始化材料参数，并通过可微的材料点方法（MPM）在渲染图像和光流的联合监督下对其进行细化。在开源和内部数据集上的验证表明，与最先进的方法相比，该框架实现了卓越的仿真保真度和物理精度，突显了其在推进机器人辅助手术应用方面的潜力。

🔬 方法详解

问题定义：现有机器人辅助微创手术中，高保真动态内窥镜场景的重建和仿真至关重要。然而，现有方法主要集中在视觉重建，缺乏对场景的物理描述，难以进行真实的物理仿真，限制了其在手术规划、机器人控制等下游任务中的应用。因此，需要一种能够同时实现高精度视觉重建和物理属性推断的方法。

核心思路：本文的核心思路是利用多模态大型语言模型（MLLM）的知识，结合4D高斯溅射（4DGS）的强大重建能力，实现内窥镜场景的物理感知重建和仿真。通过MLLM初始化场景中物体的物理属性，并利用可微的材料点方法（MPM）进行优化，从而实现物理属性的自动推断和高精度仿真。

技术框架：EndoGSim框架主要包含以下几个模块：1) 4D高斯溅射（4DGS）模块，用于动态场景的视觉重建；2) 预训练分割和深度估计模块，用于提取场景中的物体信息和深度信息；3) MLLM引导的材料场初始化模块，用于根据场景内容初始化物体的物理属性；4) 可微的材料点方法（MPM）模块，用于在渲染图像和光流的联合监督下，优化物体的物理属性。整个流程首先利用4DGS进行场景重建，然后利用预训练模型提取物体信息，接着利用MLLM初始化物理属性，最后利用MPM进行优化，最终实现物理感知的动态场景仿真。

关键创新：本文最重要的技术创新点在于引入了MLLM来初始化场景中物体的物理属性。与传统方法相比，这种方法能够利用MLLM的先验知识，自动推断出物体的材料参数，避免了手动设置参数的繁琐过程。此外，通过可微的MPM进行优化，可以进一步提高物理属性的精度，从而实现更逼真的物理仿真。

关键设计：在材料场初始化模块中，使用了CLIP模型将图像信息和文本信息编码到同一空间，然后利用MLLM进行推理，得到物体的材料参数。在MPM模块中，使用了基于梯度的优化算法，通过最小化渲染图像和光流的误差，来优化物体的物理属性。损失函数包括渲染损失和光流损失，其中渲染损失用于保证视觉效果的逼真度，光流损失用于保证物理仿真的准确性。

🖼️ 关键图片

📊 实验亮点

在开源和内部数据集上的实验结果表明，EndoGSim框架在仿真保真度和物理精度上均优于现有方法。具体而言，与state-of-the-art方法相比，该框架在视觉重建指标（如PSNR和SSIM）和物理仿真指标（如光流误差）上均取得了显著提升，验证了其有效性和优越性。

🎯 应用场景

该研究成果可应用于机器人辅助微创手术的训练、规划和控制等领域。通过高保真的物理仿真，医生可以在虚拟环境中进行手术练习，提高手术技能。此外，该方法还可以用于手术规划，帮助医生选择最佳的手术路径和策略。在机器人控制方面，该方法可以为机器人提供更准确的环境信息，从而实现更精确的操作。

📄 摘要（原文）

In robot-assisted minimally invasive surgery, high-fidelity dynamic endoscopic scene reconstruction and simulation are crucial to enhancing downstream tasks and advancing surgical outcomes. However, existing methods primarily focus on visual reconstruction, lacking physics-based descriptions of the scene required for realistic simulation. We propose a unified framework that achieves physics-aware reconstruction and physical simulation of endoscopic scenes through Multi-modal Large Language Models (MLLMs)-guided Gaussian Splatting. Our approach utilizes 4D Gaussian Splatting (4DGS) integrated with pre-trained segmentation and depth estimation to represent deformable tissues and tools. To achieve automatic inference of physical properties, we introduce an object-wise material field that initializes material parameters via MLLM and refines them through a differentiable Material Point Method (MPM) under joint supervision from rendered images and optical flow. Validated on both open-source and in-house datasets, our framework achieves superior simulation fidelity and physical accuracy compared to state-of-the-art methods, underscoring its potential to advance robot-assisted surgical applications.

EndoGSim: Physics-Aware 4D Dynamic Endoscopic Scene Simulations via MLLM-Guided Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理