eNCApsulate: NCA for Precision Diagnosis on Capsule Endoscopes

📄 arXiv: 2504.21562v1 📥 PDF

作者: Henry John Krumb, Anirban Mukhopadhyay

分类: cs.CV, cs.AI

发布日期: 2025-04-30


💡 一句话要点

提出eNCApsulate,利用神经元胞自动机实现胶囊内窥镜的精确诊断。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胶囊内窥镜 神经元胞自动机 知识蒸馏 出血分割 深度估计

📋 核心要点

  1. 胶囊内窥镜产生大量视频数据,人工审查耗时,且胶囊定位困难,出血检测和深度估计有助于病灶定位,但现有深度学习模型体积过大,难以在胶囊上直接运行。
  2. 本文提出eNCApsulate,利用神经元胞自动机(NCA)进行出血分割和深度估计,并通过知识蒸馏将大型模型知识迁移到轻量化的NCA模型中,使其能在微控制器上运行。
  3. 实验结果表明,NCA在出血分割任务上比其他便携模型更准确,参数量减少100倍以上,深度估计结果逼真,且通过优化,在ESP32-S3上的推理速度显著提升。

📝 摘要(中文)

无线胶囊内窥镜是一种非侵入性的全胃肠道成像方法,是传统内窥镜的无痛替代方案。它会生成大量的视频数据,需要大量的审查时间,并且摄入后胶囊的定位是一个挑战。出血检测和深度估计等技术可以帮助定位病灶,但深度学习模型通常太大,无法直接在胶囊上运行。本文在胶囊内窥镜图像上训练用于出血分割和深度估计的神经元胞自动机(NCA)。对于单目深度估计,通过将大型基础模型的输出视为伪ground truth,将大型基础模型提炼到精简的NCA架构中。然后,将训练好的NCA移植到ESP32微控制器上,从而能够在像相机胶囊一样小的硬件上进行高效的图像处理。与其他便携式分割模型相比,NCA更准确(Dice系数),同时存储在内存中的参数比其他小型模型少100倍以上。NCA深度估计的视觉结果看起来令人信服,在某些情况下甚至超过了伪ground truth的真实感和细节。ESP32-S3上的运行时优化显著加速了平均推理速度,提高了3倍以上。通过一些算法调整和蒸馏,可以将NCA模型封装到适合无线胶囊内窥镜的微控制器中。这是第一个在小型化设备上实现可靠的出血分割和深度估计的工作,为精确诊断和视觉里程计相结合,以实现胶囊的精确定位铺平了道路——在胶囊上。

🔬 方法详解

问题定义:胶囊内窥镜检查产生大量视频数据,需要医生花费大量时间进行人工阅片,效率低下。同时,胶囊在消化道内的定位也是一个挑战。现有的深度学习模型虽然可以辅助诊断,但模型体积庞大,无法直接部署在胶囊内窥镜这种资源受限的设备上。因此,需要在保证诊断精度的前提下,降低模型的计算复杂度和存储需求。

核心思路:本文的核心思路是利用神经元胞自动机(NCA)这种轻量级的计算模型,结合知识蒸馏技术,将大型深度学习模型的知识迁移到NCA模型中,从而在保证诊断精度的同时,显著降低模型的参数量和计算复杂度,使其能够在微控制器上运行。

技术框架:整体框架包括三个主要阶段:1) 在胶囊内窥镜图像上训练大型深度学习模型,用于出血分割和深度估计,并将模型的输出作为伪ground truth。2) 利用伪ground truth训练NCA模型,实现知识蒸馏。3) 将训练好的NCA模型移植到ESP32微控制器上,并进行运行时优化,提高推理速度。

关键创新:最重要的技术创新点在于将NCA应用于胶囊内窥镜图像的出血分割和深度估计任务,并结合知识蒸馏技术,实现了在资源受限的设备上运行高精度诊断模型。与现有方法相比,本文提出的方法能够在保证诊断精度的前提下,显著降低模型的参数量和计算复杂度。

关键设计:在深度估计任务中,使用大型预训练模型作为教师模型,生成伪ground truth。NCA模型的具体结构未知,但强调了其轻量化特性。运行时优化包括算法调整,以加速ESP32-S3上的推理速度。损失函数和具体的网络结构等细节未在摘要中明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NCA在出血分割任务上的Dice系数优于其他便携式分割模型,同时参数量减少100倍以上。深度估计的视觉效果逼真,甚至在某些情况下超过了伪ground truth的细节。通过在ESP32-S3上的运行时优化,平均推理速度提高了3倍以上,验证了该方法在资源受限设备上的可行性。

🎯 应用场景

该研究成果可应用于无线胶囊内窥镜的实时诊断,实现出血检测、深度估计和胶囊定位等功能。这将大大减轻医生的阅片负担,提高诊断效率和准确性。此外,该技术还可扩展到其他资源受限的医疗设备中,例如可穿戴健康监测设备,实现更便捷、智能的医疗服务。

📄 摘要(原文)

Wireless Capsule Endoscopy is a non-invasive imaging method for the entire gastrointestinal tract, and is a pain-free alternative to traditional endoscopy. It generates extensive video data that requires significant review time, and localizing the capsule after ingestion is a challenge. Techniques like bleeding detection and depth estimation can help with localization of pathologies, but deep learning models are typically too large to run directly on the capsule. Neural Cellular Automata (NCA) for bleeding segmentation and depth estimation are trained on capsule endoscopic images. For monocular depth estimation, we distill a large foundation model into the lean NCA architecture, by treating the outputs of the foundation model as pseudo ground truth. We then port the trained NCA to the ESP32 microcontroller, enabling efficient image processing on hardware as small as a camera capsule. NCA are more accurate (Dice) than other portable segmentation models, while requiring more than 100x fewer parameters stored in memory than other small-scale models. The visual results of NCA depth estimation look convincing, and in some cases beat the realism and detail of the pseudo ground truth. Runtime optimizations on the ESP32-S3 accelerate the average inference speed significantly, by more than factor 3. With several algorithmic adjustments and distillation, it is possible to eNCApsulate NCA models into microcontrollers that fit into wireless capsule endoscopes. This is the first work that enables reliable bleeding segmentation and depth estimation on a miniaturized device, paving the way for precise diagnosis combined with visual odometry as a means of precise localization of the capsule -- on the capsule.