V$^2$-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endoscopy
作者: Long Bai, Beilei Cui, Liangyu Wang, Yanheng Li, Shilong Yao, Sishen Yuan, Yanan Wu, Yang Zhang, Max Q. -H. Meng, Zhen Li, Weiping Ding, Hongliang Ren
分类: cs.CV, cs.AI, cs.RO
发布日期: 2024-12-23
备注: To appear in IEEE Transactions on Automation Science and Engineering (IEEE TASE)
💡 一句话要点
V$^2$-SfMLearner:融合振动信号的单目无线胶囊内窥镜深度与运动估计学习
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胶囊内窥镜 深度估计 运动估计 多模态融合 振动信号 无监督学习 医学影像 机器人视觉
📋 核心要点
- 现有基于视觉的胶囊内窥镜深度和运动估计方法易受胶囊碰撞产生的振动噪声干扰,影响三维重建和病灶定位的准确性。
- V$^2$-SfMLearner通过融合视觉和振动信号,利用振动网络分支和傅里叶融合模块,有效检测并抑制振动噪声,提升深度和运动估计的鲁棒性。
- 在多模态胶囊内窥镜数据集上的实验表明,V$^2$-SfMLearner显著优于纯视觉算法,为临床胶囊机器人的应用提供了更可靠的解决方案。
📝 摘要(中文)
本文提出V$^2$-SfMLearner,一种多模态方法,将振动信号整合到基于视觉的深度和胶囊运动估计中,用于单目胶囊内窥镜。由于胃肠道内胶囊内窥镜的碰撞会导致训练数据中出现振动扰动,现有解决方案仅关注基于视觉的处理,忽略了振动等辅助信号,而这些信号可以减少噪声并提高性能。为此,构建了一个包含振动和视觉信号的多模态胶囊内窥镜数据集,并开发了一种使用视觉-振动信号的无监督方法,通过多模态学习有效消除振动扰动。具体来说,精心设计了一个振动网络分支和一个傅里叶融合模块,以检测和减轻振动噪声。该融合框架与流行的纯视觉算法兼容。在多模态数据集上的大量验证表明,该方法优于纯视觉算法,并具有更强的鲁棒性。无需大型外部设备,V$^2$-SfMLearner有潜力集成到临床胶囊机器人中,提供实时可靠的消化检查工具,为临床应用带来希望,并增强医生的诊断能力。
🔬 方法详解
问题定义:论文旨在解决单目无线胶囊内窥镜视频中,由于胶囊在消化道内的碰撞产生的振动噪声,导致深度估计和运动估计精度下降的问题。现有方法主要依赖纯视觉信息,忽略了振动信号中包含的有用信息,无法有效抑制振动噪声的影响。
核心思路:论文的核心思路是将振动信号作为辅助信息,与视觉信息进行融合,利用多模态学习的方法来抑制振动噪声,提高深度和运动估计的精度和鲁棒性。通过设计专门的振动网络分支来提取振动特征,并使用傅里叶融合模块将振动特征与视觉特征进行融合。
技术框架:V$^2$-SfMLearner的整体框架包括视觉网络分支、振动网络分支和融合模块。视觉网络分支负责提取视觉特征,振动网络分支负责提取振动特征,融合模块将两种特征进行融合,然后输入到深度估计和运动估计模块。整个框架采用无监督学习的方式进行训练,通过最小化图像重建误差和运动一致性误差来学习深度和运动信息。
关键创新:论文的关键创新在于将振动信号引入到单目胶囊内窥镜的深度和运动估计中,并设计了专门的振动网络分支和傅里叶融合模块。与现有方法相比,V$^2$-SfMLearner能够有效利用振动信息来抑制振动噪声,提高深度和运动估计的精度和鲁棒性。
关键设计:振动网络分支采用卷积神经网络结构,输入为振动信号的时序数据,输出为振动特征向量。傅里叶融合模块将视觉特征和振动特征转换到频域,然后进行融合。损失函数包括图像重建误差和运动一致性误差,用于约束深度和运动估计的结果。
🖼️ 关键图片
📊 实验亮点
在自建的多模态胶囊内窥镜数据集上,V$^2$-SfMLearner的深度估计和运动估计精度显著优于纯视觉算法。实验结果表明,V$^2$-SfMLearner能够有效抑制振动噪声,提高算法的鲁棒性。具体性能提升数据未知,但论文强调了其优越性和鲁棒性。
🎯 应用场景
V$^2$-SfMLearner可应用于临床胶囊机器人,提供实时、可靠的消化道检查工具。通过提高深度和运动估计的精度,可以更准确地进行三维场景重建和病灶定位,辅助医生进行诊断。该技术无需大型外部设备,易于集成到现有胶囊内窥镜系统中,具有广阔的临床应用前景。
📄 摘要(原文)
Deep learning can predict depth maps and capsule ego-motion from capsule endoscopy videos, aiding in 3D scene reconstruction and lesion localization. However, the collisions of the capsule endoscopies within the gastrointestinal tract cause vibration perturbations in the training data. Existing solutions focus solely on vision-based processing, neglecting other auxiliary signals like vibrations that could reduce noise and improve performance. Therefore, we propose V$^2$-SfMLearner, a multimodal approach integrating vibration signals into vision-based depth and capsule motion estimation for monocular capsule endoscopy. We construct a multimodal capsule endoscopy dataset containing vibration and visual signals, and our artificial intelligence solution develops an unsupervised method using vision-vibration signals, effectively eliminating vibration perturbations through multimodal learning. Specifically, we carefully design a vibration network branch and a Fourier fusion module, to detect and mitigate vibration noises. The fusion framework is compatible with popular vision-only algorithms. Extensive validation on the multimodal dataset demonstrates superior performance and robustness against vision-only algorithms. Without the need for large external equipment, our V$^2$-SfMLearner has the potential for integration into clinical capsule robots, providing real-time and dependable digestive examination tools. The findings show promise for practical implementation in clinical settings, enhancing the diagnostic capabilities of doctors.