Geo-RepNet: Geometry-Aware Representation Learning for Surgical Phase Recognition in Endoscopic Submucosal Dissection

📄 arXiv: 2507.09294v1 📥 PDF

作者: Rui Tang, Haochen Yin, Guankun Wang, Long Bai, An Wang, Huxin Gao, Jiazheng Wang, Hongliang Ren

分类: cs.CV, cs.RO

发布日期: 2025-07-12

备注: IEEE ICIA 2025


💡 一句话要点

Geo-RepNet:针对内镜黏膜下剥离术中手术阶段识别的几何感知表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 手术阶段识别 内镜黏膜下剥离术 深度信息 几何感知 多模态融合

📋 核心要点

  1. 现有手术阶段识别方法难以区分高度相似的阶段,且RGB图像缺乏结构信息,限制了识别精度。
  2. Geo-RepNet利用深度信息提取几何先验,并通过几何增强的多尺度注意力机制注入空间引导,提升识别性能。
  3. 在自建的九阶段ESD数据集上,Geo-RepNet实现了最先进的性能,并在复杂环境中保持了鲁棒性和效率。

📝 摘要(中文)

手术阶段识别在内镜黏膜下剥离术(ESD)等微创手术的智能辅助系统中起着关键作用。然而,不同阶段之间的高度视觉相似性以及RGB图像中缺乏结构线索带来了重大挑战。深度信息提供了有价值的几何线索,可以通过提供对空间关系和解剖结构的洞察来补充外观特征。本文率先使用深度信息进行手术阶段识别,并提出了Geo-RepNet,一个几何感知的卷积框架,它集成了RGB图像和深度信息,以提高复杂手术场景中的识别性能。Geo-RepNet建立在可重参数化的RepVGG主干网络之上,包含深度引导的几何先验生成(DGPG)模块,该模块从原始深度图中提取几何先验,以及几何增强的多尺度注意力(GEMA)模块,通过几何感知的交叉注意力和高效的多尺度聚合来注入空间引导。为了评估我们方法的有效性,我们构建了一个包含九个阶段的ESD数据集,其中包含来自真实ESD视频的密集帧级注释。在提出的数据集上进行的大量实验表明,Geo-RepNet实现了最先进的性能,同时在复杂和低纹理的手术环境中保持了鲁棒性和高计算效率。

🔬 方法详解

问题定义:内镜黏膜下剥离术(ESD)中,手术阶段识别面临挑战,主要原因是不同阶段的视觉相似度高,且传统RGB图像缺乏空间结构信息,导致难以准确判断当前手术进展。现有方法主要依赖RGB图像,忽略了深度信息提供的几何线索,限制了识别精度。

核心思路:论文的核心思路是利用深度信息来补充RGB图像,提取几何先验知识,从而增强模型对不同手术阶段的区分能力。通过深度信息,模型可以更好地理解手术场景的空间结构和解剖关系,从而提高识别的准确性和鲁棒性。

技术框架:Geo-RepNet的整体架构是一个几何感知的卷积框架,主要包含以下几个模块:1) RepVGG主干网络:用于提取RGB图像的特征。2) 深度引导的几何先验生成(DGPG)模块:从原始深度图中提取几何先验信息。3) 几何增强的多尺度注意力(GEMA)模块:通过几何感知的交叉注意力和高效的多尺度聚合,将几何先验信息注入到RGB特征中。最终,融合后的特征被用于手术阶段的分类。

关键创新:该论文的关键创新在于:1) 首次将深度信息引入到手术阶段识别任务中。2) 提出了DGPG模块,用于从深度图中提取有效的几何先验。3) 提出了GEMA模块,通过几何感知的注意力机制,有效地融合RGB图像和深度信息。与现有方法相比,Geo-RepNet能够更好地利用空间结构信息,从而提高识别精度。

关键设计:DGPG模块的设计细节包括如何从深度图中提取几何特征,例如表面法向量、曲率等。GEMA模块的关键设计在于如何实现几何感知的交叉注意力,以及如何进行多尺度特征的聚合。损失函数方面,可能采用了交叉熵损失函数,并可能结合了一些正则化项来防止过拟合。具体的参数设置和网络结构细节需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Geo-RepNet在自建的九阶段ESD数据集上取得了state-of-the-art的性能。具体而言,Geo-RepNet在识别精度上显著优于现有的基于RGB图像的方法,并且在复杂和低纹理的手术环境中表现出更强的鲁棒性。此外,Geo-RepNet在保持高性能的同时,还具有较高的计算效率,使其能够满足实时手术辅助的需求。

🎯 应用场景

该研究成果可应用于开发智能手术辅助系统,例如在内镜黏膜下剥离术(ESD)中,实时识别手术阶段,为医生提供操作建议和指导,提高手术效率和安全性。此外,该方法还可以推广到其他微创手术的阶段识别任务中,具有广泛的应用前景。未来,结合更先进的深度感知技术和人工智能算法,有望实现更智能化的手术导航和机器人辅助手术。

📄 摘要(原文)

Surgical phase recognition plays a critical role in developing intelligent assistance systems for minimally invasive procedures such as Endoscopic Submucosal Dissection (ESD). However, the high visual similarity across different phases and the lack of structural cues in RGB images pose significant challenges. Depth information offers valuable geometric cues that can complement appearance features by providing insights into spatial relationships and anatomical structures. In this paper, we pioneer the use of depth information for surgical phase recognition and propose Geo-RepNet, a geometry-aware convolutional framework that integrates RGB image and depth information to enhance recognition performance in complex surgical scenes. Built upon a re-parameterizable RepVGG backbone, Geo-RepNet incorporates the Depth-Guided Geometric Prior Generation (DGPG) module that extracts geometry priors from raw depth maps, and the Geometry-Enhanced Multi-scale Attention (GEMA) to inject spatial guidance through geometry-aware cross-attention and efficient multi-scale aggregation. To evaluate the effectiveness of our approach, we construct a nine-phase ESD dataset with dense frame-level annotations from real-world ESD videos. Extensive experiments on the proposed dataset demonstrate that Geo-RepNet achieves state-of-the-art performance while maintaining robustness and high computational efficiency under complex and low-texture surgical environments.