EndoVGGT: GNN-Enhanced Depth Estimation for Surgical 3D Reconstruction

📄 arXiv: 2603.24577v1 📥 PDF

作者: Falong Fan, Yi Xie, Arnis Lektauers, Bo Liu, Jerzy Rozenblit

分类: cs.CV, cs.AI

发布日期: 2026-03-25


💡 一句话要点

EndoVGGT:基于GNN增强的深度估计,用于手术三维重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 手术三维重建 深度估计 图神经网络 形变感知 机器人感知

📋 核心要点

  1. 现有手术三维重建方法难以应对软组织低纹理、镜面反射和器械遮挡等问题,导致几何连续性中断。
  2. EndoVGGT通过形变感知图注意力(DeGAT)模块,动态构建特征空间语义图,捕捉组织区域间的长程相关性。
  3. 实验表明,EndoVGGT在SCARED数据集上显著提升了重建保真度,并在未见数据集上展现出强大的泛化能力。

📝 摘要(中文)

针对手术机器人感知中软组织三维重建问题,现有方法难以处理低纹理表面、镜面反射和器械遮挡导致的几何连续性中断。本文提出EndoVGGT,一个以几何为中心的框架,配备了形变感知图注意力(DeGAT)模块。DeGAT不使用静态空间邻域,而是动态构建特征空间语义图,以捕捉组织区域间的长程相关性。这使得结构线索能够跨越遮挡进行鲁棒传播,增强全局一致性并改善非刚性形变恢复。在SCARED数据集上的实验表明,该方法显著提高了重建保真度,PSNR提升24.6%,SSIM提升9.1%。EndoVGGT在未见过的SCARED和EndoNeRF数据集上表现出强大的零样本跨数据集泛化能力,证实DeGAT学习了领域无关的几何先验。这些结果突出了动态特征空间建模在一致性手术三维重建中的有效性。

🔬 方法详解

问题定义:论文旨在解决手术机器人感知中软组织的三维重建问题。现有方法在处理低纹理、镜面反射和器械遮挡等情况时,容易导致几何连续性中断,重建精度下降。这些问题使得传统方法难以准确捕捉软组织的形变,影响手术导航和规划。

核心思路:论文的核心思路是利用图神经网络(GNN)动态建模组织区域间的长程依赖关系。通过在特征空间构建语义图,可以克服空间邻域的局限性,实现结构信息的有效传播,从而增强重建的全局一致性和形变恢复能力。这种方法能够更好地利用几何先验知识,提高重建的鲁棒性。

技术框架:EndoVGGT框架主要包含以下几个阶段:首先,从输入图像中提取特征;然后,利用DeGAT模块构建特征空间语义图,并进行信息传递和聚合;最后,基于图结构特征进行深度估计,从而实现三维重建。DeGAT模块是整个框架的核心,负责动态建模组织区域间的关系。

关键创新:论文最关键的创新在于提出了形变感知图注意力(DeGAT)模块。与传统的静态空间邻域方法不同,DeGAT能够根据特征相似性动态构建语义图,从而捕捉组织区域间的长程依赖关系。这种动态建模方式使得网络能够更好地适应软组织的形变,提高重建的鲁棒性和精度。

关键设计:DeGAT模块的关键设计包括:使用注意力机制来学习节点之间的权重,从而实现信息的选择性传递;采用图卷积操作来聚合邻居节点的信息,从而增强节点的表示能力;使用形变感知损失函数来约束网络的学习,从而提高形变恢复的精度。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EndoVGGT在SCARED数据集上取得了显著的性能提升,PSNR提高了24.6%,SSIM提高了9.1%,超过了现有最先进的方法。更重要的是,EndoVGGT在未见过的SCARED和EndoNeRF数据集上表现出强大的零样本跨数据集泛化能力,这表明DeGAT模块学习到了领域无关的几何先验,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于手术机器人辅助的精准手术导航、术中软组织形变监测、以及术后效果评估等方面。通过提供更准确的三维重建,医生可以更好地了解手术区域的解剖结构和组织状态,从而提高手术的安全性、精确性和有效性。未来,该技术有望推广到更广泛的医疗影像分析和诊断领域。

📄 摘要(原文)

Accurate 3D reconstruction of deformable soft tissues is essential for surgical robotic perception. However, low-texture surfaces, specular highlights, and instrument occlusions often fragment geometric continuity, posing a challenge for existing fixed-topology approaches. To address this, we propose EndoVGGT, a geometry-centric framework equipped with a Deformation-aware Graph Attention (DeGAT) module. Rather than using static spatial neighborhoods, DeGAT dynamically constructs feature-space semantic graphs to capture long-range correlations among coherent tissue regions. This enables robust propagation of structural cues across occlusions, enforcing global consistency and improving non-rigid deformation recovery. Extensive experiments on SCARED show that our method significantly improves fidelity, increasing PSNR by 24.6% and SSIM by 9.1% over prior state-of-the-art. Crucially, EndoVGGT exhibits strong zero-shot cross-dataset generalization to the unseen SCARED and EndoNeRF domains, confirming that DeGAT learns domain-agnostic geometric priors. These results highlight the efficacy of dynamic feature-space modeling for consistent surgical 3D reconstruction.