Investigating a Policy-Based Formulation for Endoscopic Camera Pose Recovery

📄 arXiv: 2603.20045v1 📥 PDF

作者: Jan Emily Mangulabnan, Akshat Chauhan, Laura Fleig, Lalithkumar Seenivasan, Roger D. Soberanis-Mukul, S. Swaroop Vedula, Russell H. Taylor, Masaru Ishii, Gregory D. Hager, Mathias Unberath

分类: eess.IV, cs.CV

发布日期: 2026-03-20


💡 一句话要点

提出基于策略的内窥镜相机位姿恢复方法,解决弱纹理和光照变化下的定位难题。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 内窥镜手术 相机位姿恢复 策略学习 深度学习 医学影像导航

📋 核心要点

  1. 现有内窥镜相机位姿恢复方法依赖特征匹配和几何优化,在低纹理和光照变化下表现不佳。
  2. 提出一种基于策略的学习方法,直接预测短时程相对运动,无需显式几何表示,模仿专家操作。
  3. 在鼻窦内窥镜数据集上验证,相比几何基线,平移误差更低,且对低纹理环境更鲁棒。

📝 摘要(中文)

在内窥镜手术中,外科医生通过结合术前知识,持续解读术中场景的视觉变化来确定内窥镜相对于解剖结构的位置。基于视觉的导航系统旨在通过直接从内窥镜视频中恢复相机位姿来复制这种能力,但大多数方法未能体现外科医生成功背后的推理原则。相反,它们仍然依赖于特征匹配和关键帧上的几何优化,这种方法在内窥镜成像的挑战性条件下(如低纹理和快速光照变化)会退化。本文提出了一种替代方法,研究了一种基于策略的内窥镜相机位姿恢复公式,旨在模仿专家在先前相机状态下估计轨迹。该方法直接预测短时程相对运动,而无需在推理时维护显式的几何表示。因此,它在设计上解决了基于几何方法的一些臭名昭著的挑战,例如脆弱的对应匹配、纹理稀疏区域的不稳定性以及由于重建失败导致的有限位姿覆盖。我们在尸体鼻窦内窥镜检查中评估了所提出的公式。在oracle状态调节下,我们将短时程运动预测质量与几何基线进行比较,实现了最低的平均平移误差和具有竞争力的旋转精度。我们通过根据纹理丰富度和光照变化对预测窗口进行分组来分析鲁棒性,表明对低纹理条件的敏感性降低。这些发现表明,学习到的运动策略为内窥镜相机位姿恢复提供了一种可行的替代公式。

🔬 方法详解

问题定义:内窥镜手术中,准确估计相机位姿至关重要,但现有方法在低纹理、快速光照变化等复杂环境下容易失效。传统方法依赖特征匹配和几何优化,这些方法对噪声敏感,且容易在纹理稀疏区域出现不稳定。

核心思路:模仿外科医生根据先前状态预测下一步动作的策略,将相机位姿恢复问题建模为一个策略学习问题。直接学习从当前相机状态到短时程相对运动的映射,避免了中间几何重建步骤,从而提高了鲁棒性。

技术框架:该方法没有维护显式的几何表示,而是直接预测短时程的相对运动。整体流程包括:1)输入当前内窥镜图像;2)通过策略网络预测短时程的相对运动(例如,相机在短时间内的平移和旋转);3)根据预测的运动更新相机位姿。该过程可以迭代进行,以实现连续的位姿估计。

关键创新:核心创新在于将内窥镜相机位姿恢复问题转化为一个策略学习问题,直接学习运动策略。与传统的基于几何的方法相比,该方法避免了特征匹配和几何重建,从而提高了对低纹理和光照变化的鲁棒性。此外,该方法不需要维护全局地图,降低了计算复杂度。

关键设计:策略网络的设计是关键。具体细节未知,但可以推测可能采用卷积神经网络(CNN)提取图像特征,然后使用循环神经网络(RNN)或Transformer来建模时间序列信息,最后通过全连接层预测相对运动。损失函数可能包括平移误差和旋转误差,并可能采用对抗训练或强化学习等技术来提高策略的泛化能力。论文中使用了oracle状态调节,具体实现方式未知,但可能涉及使用真实位姿信息来指导策略学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在尸体鼻窦内窥镜数据集上,该方法在oracle状态调节下,实现了比几何基线更低的平均平移误差,并具有竞争力的旋转精度。通过对不同纹理丰富度和光照变化条件下的预测窗口进行分析,表明该方法对低纹理环境具有更强的鲁棒性,验证了其在复杂内窥镜场景下的有效性。

🎯 应用场景

该研究成果可应用于内窥镜手术导航系统,帮助外科医生更准确地定位手术器械,提高手术精度和安全性。此外,该方法也可扩展到其他医学影像引导手术,例如腹腔镜手术和机器人辅助手术。未来,结合深度学习和强化学习,有望实现更智能、更自主的手术导航。

📄 摘要(原文)

In endoscopic surgery, surgeons continuously locate the endoscopic view relative to the anatomy by interpreting the evolving visual appearance of the intraoperative scene in the context of their prior knowledge. Vision-based navigation systems seek to replicate this capability by recovering camera pose directly from endoscopic video, but most approaches do not embody the same principles of reasoning about new frames that makes surgeons successful. Instead, they remain grounded in feature matching and geometric optimization over keyframes, an approach that has been shown to degrade under the challenging conditions of endoscopic imaging like low texture and rapid illumination changes. Here, we pursue an alternative approach and investigate a policy-based formulation of endoscopic camera pose recovery that seeks to imitate experts in estimating trajectories conditioned on the previous camera state. Our approach directly predicts short-horizon relative motions without maintaining an explicit geometric representation at inference time. It thus addresses, by design, some of the notorious challenges of geometry-based approaches, such as brittle correspondence matching, instability in texture-sparse regions, and limited pose coverage due to reconstruction failure. We evaluate the proposed formulation on cadaveric sinus endoscopy. Under oracle state conditioning, we compare short-horizon motion prediction quality to geometric baselines achieving lowest mean translation error and competitive rotational accuracy. We analyze robustness by grouping prediction windows according to texture richness and illumination change indicating reduced sensitivity to low-texture conditions. These findings suggest that a learned motion policy offers a viable alternative formulation for endoscopic camera pose recovery.