Towards Comprehensive Real-Time Scene Understanding in Ophthalmic Surgery through Multimodal Image Fusion

📄 arXiv: 2603.25555v1 📥 PDF

作者: Nikolo Rohrmoser, Ghazal Ghazaei, Michael Sommersperger, Nassir Navab

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

提出一种多模态图像融合网络,用于眼科手术中实时场景理解和器械精准追踪。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 眼科手术 实时场景理解 器械跟踪 深度学习

📋 核心要点

  1. 现有方法难以充分利用眼科手术中多模态图像信息,限制了手术场景理解的全面性和准确性。
  2. 提出一种多模态时序网络,通过交叉注意力融合OPMI和iOCT特征,并利用循环模块挖掘时序信息。
  3. 实验表明,该方法在器械定位、关键点检测和工具-组织距离估计方面均有显著提升,并实现了实时处理。

📝 摘要(中文)

本研究旨在通过融合多模态图像,实现眼科手术中全面的场景理解。具体而言,针对眼科手术中现有的两种互补成像方式:手术显微镜成像(OPMI)和实时术中光学相干断层扫描(iOCT),提出了一种时序OPMI和iOCT特征融合方法,并通过玻璃体视网膜手术中精确的器械跟踪这一实例,展示了多模态图像处理在多任务预测方面的潜力。该方法构建了一个多模态、时序、实时的网络架构,用于联合器械检测、关键点定位和工具-组织距离估计。网络集成了交叉注意力融合模块,以融合OPMI和iOCT图像特征,这些特征分别通过YoloNAS和CNN编码器高效提取。此外,基于区域的循环模块利用了时间连贯性。实验结果表明,该方法能够实现可靠的器械定位和关键点检测(95.79% mAP50),并且iOCT的加入显著提高了工具-组织距离估计的准确性,同时实现了22.5毫秒/帧的实时处理速度。特别是在接近视网膜的距离(低于1毫米)时,距离估计精度从仅使用OPMI的284微米提高到多模态的33微米。结论是,与单模态处理相比,多模态成像的特征融合可以提高多任务预测的准确性,并且可以通过定制的网络设计实现实时处理性能。研究结果展示了多模态处理在图像引导的玻璃体视网膜手术中的潜力,同时也强调了未来研究中需要解决的关键挑战,即实现更可靠、一致和全面的手术场景理解。

🔬 方法详解

问题定义:论文旨在解决眼科手术中,特别是玻璃体视网膜手术中,如何利用多模态图像(OPMI和iOCT)进行更精确、更全面的手术场景理解的问题。现有方法主要依赖单一模态的图像信息,无法充分利用不同模态之间的互补信息,导致器械定位精度不足,工具与组织距离估计不准确,从而影响手术的安全性和有效性。

核心思路:论文的核心思路是融合OPMI和iOCT两种模态的图像特征,利用OPMI提供的手术视野全局信息和iOCT提供的组织深度信息,实现更精确的器械定位和工具-组织距离估计。通过设计一个多模态、时序的网络架构,充分利用两种模态的互补信息,并考虑手术过程中的时间连贯性,从而提高手术场景理解的准确性和鲁棒性。

技术框架:该网络架构主要包含以下几个模块:1) 特征提取模块:分别使用YoloNAS和CNN编码器从OPMI和iOCT图像中提取特征。2) 交叉注意力融合模块:将提取的OPMI和iOCT特征进行融合,学习不同模态之间的关联性。3) 基于区域的循环模块:利用循环神经网络(RNN)处理时序信息,提高预测的稳定性。4) 多头预测模块:同时进行器械检测、关键点定位和工具-组织距离估计。整个流程是,首先分别提取两种模态的特征,然后通过交叉注意力进行融合,再利用循环模块处理时序信息,最后进行多任务预测。

关键创新:该论文的关键创新在于:1) 提出了一种基于交叉注意力的多模态特征融合方法,能够有效地融合OPMI和iOCT图像特征。2) 设计了一个基于区域的循环模块,能够利用手术过程中的时间连贯性,提高预测的稳定性。3) 实现了多任务联合预测,同时进行器械检测、关键点定位和工具-组织距离估计。与现有方法相比,该方法能够更充分地利用多模态图像信息和时序信息,从而提高手术场景理解的准确性和鲁棒性。

关键设计:在特征提取方面,选择YoloNAS作为OPMI的特征提取器,因为它具有较高的检测精度和实时性。对于iOCT,则使用一个简单的CNN编码器。交叉注意力模块的具体实现细节未知,但其目的是学习OPMI和iOCT特征之间的关联性。循环模块的具体实现细节也未知,但其目的是利用手术过程中的时间连贯性。损失函数方面,可能采用了多任务学习的损失函数,同时考虑了器械检测、关键点定位和工具-组织距离估计的损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在器械定位和关键点检测方面达到了95.79%的mAP50。更重要的是,iOCT的加入显著提高了工具-组织距离估计的准确性,特别是在接近视网膜的距离(低于1毫米)时,距离估计精度从仅使用OPMI的284微米提高到多模态的33微米,提升幅度巨大。同时,该方法实现了22.5毫秒/帧的实时处理速度。

🎯 应用场景

该研究成果可应用于图像引导的玻璃体视网膜手术,提高手术的精准性和安全性。通过实时提供器械位置、关键点和与组织距离等信息,辅助医生进行更精细的操作,降低手术风险。未来,该技术有望推广到其他眼科手术,甚至其他需要精确定位的微创手术中,具有广阔的应用前景。

📄 摘要(原文)

Purpose: The integration of multimodal imaging into operating rooms paves the way for comprehensive surgical scene understanding. In ophthalmic surgery, by now, two complementary imaging modalities are available: operating microscope (OPMI) imaging and real-time intraoperative optical coherence tomography (iOCT). This first work toward temporal OPMI and iOCT feature fusion demonstrates the potential of multimodal image processing for multi-head prediction through the example of precise instrument tracking in vitreoretinal surgery. Methods: We propose a multimodal, temporal, real-time capable network architecture to perform joint instrument detection, keypoint localization, and tool-tissue distance estimation. Our network design integrates a cross-attention fusion module to merge OPMI and iOCT image features, which are efficiently extracted via a YoloNAS and a CNN encoder, respectively. Furthermore, a region-based recurrent module leverages temporal coherence. Results: Our experiments demonstrate reliable instrument localization and keypoint detection (95.79% mAP50) and show that the incorporation of iOCT significantly improves tool-tissue distance estimation, while achieving real-time processing rates of 22.5 ms per frame. Especially for close distances to the retina (below 1 mm), the distance estimation accuracy improved from 284 $μm$ (OPMI only) to 33 $μm$ (multimodal). Conclusion: Feature fusion of multimodal imaging can enhance multi-task prediction accuracy compared to single-modality processing and real-time processing performance can be achieved through tailored network design. While our results demonstrate the potential of multi-modal processing for image-guided vitreoretinal surgery, they also underline key challenges that motivate future research toward more reliable, consistent, and comprehensive surgical scene understanding.