ProbeMDE: Uncertainty-Guided Active Proprioception for Monocular Depth Estimation in Surgical Robotics

📄 arXiv: 2512.11773v3 📥 PDF

作者: Britton Jordan, Jordan Thompson, Jesse F. d'Almeida, Hao Li, Nithesh Kumar, Susheela Sharma Stern, James Ferguson, Ipek Oguz, Robert J. Webster, Daniel Brown, Alan Kuntz

分类: cs.RO

发布日期: 2025-12-12 (更新: 2026-01-22)

备注: 9 pages, 5 figures. Project page: https://brittonjordan.github.io/probe_mde/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ProbeMDE:不确定性引导的主动触觉单目深度估计,用于手术机器人

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 主动感知 本体感受 手术机器人 不确定性估计

📋 核心要点

  1. 手术场景中单目深度估计面临纹理缺失、反射和遮挡等挑战,导致预测不确定且不准确。
  2. ProbeMDE结合RGB图像和稀疏本体感受测量,利用模型集合预测深度图,并用不确定性梯度引导主动触觉。
  3. 实验表明,ProbeMDE在减少本体感受测量数量的同时,提高了深度估计的准确性,优于基线方法。

📝 摘要(中文)

单目深度估计(MDE)为机器人感知提供了一种有用的工具,但在具有挑战性的环境中,例如手术场景中常见的无纹理表面、镜面反射和遮挡,其预测通常是不确定和不准确的。为了解决这个问题,我们提出了ProbeMDE,一个成本感知的有源传感框架,它结合了RGB图像和稀疏的本体感受测量来进行MDE。我们的方法利用MDE模型的集合来预测密集的深度图,这些深度图以RGB图像和通过本体感受获得的稀疏已知深度测量值为条件,其中机器人以已知的配置接触环境。我们通过集合的方差来量化预测不确定性,并测量不确定性相对于候选测量位置的梯度。为了防止在选择信息量最大的本体感受(触摸)位置时出现模式崩溃,我们利用Stein变分梯度下降(SVGD)来处理这个梯度图。我们在中央气道阻塞手术模型上的模拟和物理实验中验证了我们的方法。结果表明,我们的方法在标准深度估计指标上优于基线方法,在最大限度地减少所需本体感受测量数量的同时,实现了更高的精度。

🔬 方法详解

问题定义:论文旨在解决手术机器人场景中,由于单目深度估计(MDE)在纹理缺失、镜面反射和遮挡等复杂环境下的不确定性和不准确性问题。现有方法难以在这种场景下提供可靠的深度信息,限制了手术机器人的应用。

核心思路:论文的核心思路是结合RGB图像和稀疏的本体感受测量,利用主动感知策略来提高单目深度估计的准确性。通过机器人主动触摸环境,获取少量精确的深度信息,并利用这些信息来约束和优化深度估计模型,从而降低不确定性。

技术框架:ProbeMDE框架包含以下主要模块:1) 基于RGB图像的单目深度估计模型集合;2) 本体感受测量模块,用于获取稀疏的深度信息;3) 不确定性估计模块,利用模型集合的方差来量化预测的不确定性;4) 主动感知策略模块,利用Stein变分梯度下降(SVGD)优化测量位置,最大化信息增益。整体流程是:首先利用RGB图像进行初始深度估计,然后根据不确定性估计选择最佳测量位置,通过本体感受获取深度信息,最后将深度信息融入深度估计模型,迭代优化深度图。

关键创新:论文的关键创新在于将主动感知策略与单目深度估计相结合,并利用不确定性引导测量位置的选择。通过Stein变分梯度下降(SVGD)优化测量位置,避免了模式崩溃,提高了信息获取效率。此外,使用模型集合进行不确定性估计,能够更准确地反映预测的可靠性。

关键设计:论文的关键设计包括:1) 使用深度估计模型集合,通过方差来量化不确定性;2) 利用Stein变分梯度下降(SVGD)优化测量位置,目标函数是最大化不确定性梯度;3) 成本感知的测量策略,在精度和测量次数之间进行权衡;4) 在模拟和真实手术模型上进行验证,证明了方法的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProbeMDE在模拟和真实手术模型上进行了验证,结果表明该方法在标准深度估计指标上优于基线方法。通过主动感知策略,ProbeMDE能够以更少的本体感受测量次数,实现更高的深度估计精度。具体性能提升数据未知,但论文强调了在减少测量次数的同时,实现了更高的精度。

🎯 应用场景

ProbeMDE具有广泛的应用前景,可应用于手术机器人、自主导航、三维重建等领域。在手术机器人领域,该方法可以提高机器人对环境的感知能力,辅助医生进行更精确的手术操作。在自主导航领域,该方法可以帮助机器人更好地理解周围环境,提高导航的可靠性。此外,该方法还可以应用于三维重建,提高重建的精度和效率。

📄 摘要(原文)

Monocular depth estimation (MDE) provides a useful tool for robotic perception, but its predictions are often uncertain and inaccurate in challenging environments such as surgical scenes where textureless surfaces, specular reflections, and occlusions are common. To address this, we propose ProbeMDE, a cost-aware active sensing framework that combines RGB images with sparse proprioceptive measurements for MDE. Our approach utilizes an ensemble of MDE models to predict dense depth maps conditioned on both RGB images and on a sparse set of known depth measurements obtained via proprioception, where the robot has touched the environment in a known configuration. We quantify predictive uncertainty via the ensemble's variance and measure the gradient of the uncertainty with respect to candidate measurement locations. To prevent mode collapse while selecting maximally informative locations to propriocept (touch), we leverage Stein Variational Gradient Descent (SVGD) over this gradient map. We validate our method in both simulated and physical experiments on central airway obstruction surgical phantoms. Our results demonstrate that our approach outperforms baseline methods across standard depth estimation metrics, achieving higher accuracy while minimizing the number of required proprioceptive measurements. Project page: https://brittonjordan.github.io/probe_mde/