Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection
作者: Yuncheng Jiang, Zixun Zhang, Jun Wei, Chun-Mei Feng, Guanbin Li, Xiang Wan, Shuguang Cui, Zhen Li
分类: cs.CV
发布日期: 2024-08-26
备注: BIBM2024
💡 一句话要点
提出V2I-DETR,利用视频知识蒸馏提升医学视频病灶检测效率与精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 医学视频分析 病灶检测 知识蒸馏 视频到图像 Transformer 深度学习
📋 核心要点
- 现有基于图像的病灶检测模型忽略了视频帧间的时间上下文信息,限制了检测性能。
- V2I-DETR通过知识蒸馏,将视频模型提取的时间上下文知识迁移到图像模型,实现性能与效率的平衡。
- 实验表明,V2I-DETR在病灶检测任务上显著优于现有方法,并保持了实时推理速度。
📝 摘要(中文)
本文提出了一种基于视频到图像知识蒸馏的V2I-DETR方法,用于医学视频病灶检测。该方法旨在解决现有基于图像的模型忽略视频帧间上下文信息,以及基于视频的模型计算成本高昂的问题。V2I-DETR采用教师-学生网络范式,教师网络负责从多帧中提取时间上下文信息并传递给学生网络,学生网络则是一个基于图像的模型,专注于快速推理。通过将多帧上下文信息提炼到单帧中,V2I-DETR结合了视频模型利用时间上下文的优势和图像模型快速推理的优点。实验结果表明,V2I-DETR在大幅超越现有最佳方法的同时,实现了与图像模型相当的实时推理速度(30 FPS)。
🔬 方法详解
问题定义:医学视频病灶检测旨在辅助医生进行癌症早期筛查。现有基于图像的方法无法有效利用视频帧间的时间上下文信息,而基于视频的方法虽然能够捕捉时间信息,但计算复杂度高,难以满足实时性要求。因此,如何在保证检测精度的前提下,提高医学视频病灶检测的效率是一个关键问题。
核心思路:V2I-DETR的核心思路是利用知识蒸馏技术,将视频模型学习到的时间上下文知识迁移到图像模型中。具体而言,使用一个视频模型作为教师网络,负责提取多帧视频中的时间信息;然后,将这些信息蒸馏到一个图像模型(学生网络)中,使其能够在单帧图像上进行快速且准确的病灶检测。这样既利用了视频模型的时间信息,又避免了其高计算复杂度。
技术框架:V2I-DETR采用教师-学生网络框架。教师网络是一个基于Transformer的视频检测模型(DETR的变体),输入多帧视频,输出病灶的检测结果和特征表示。学生网络是一个基于图像的检测模型,输入单帧图像,输出病灶的检测结果。知识蒸馏过程通过最小化教师网络和学生网络输出之间的差异来实现,包括特征层面的蒸馏和预测结果层面的蒸馏。
关键创新:V2I-DETR的关键创新在于提出了视频到图像的知识蒸馏方法,将视频模型的时间上下文知识有效地迁移到图像模型中。这种方法不同于传统的图像到图像的知识蒸馏,它需要解决如何将多帧视频的信息压缩到单帧图像中,并保证知识的有效传递。此外,V2I-DETR还针对医学视频病灶检测任务,设计了特定的蒸馏损失函数,以提高知识迁移的效率。
关键设计:教师网络可以采用各种视频检测模型,例如SlowFast、TSN等。学生网络可以采用各种图像检测模型,例如Faster R-CNN、YOLO等。知识蒸馏损失函数包括:1) 特征蒸馏损失,用于约束学生网络的特征表示与教师网络的特征表示相似;2) 预测结果蒸馏损失,用于约束学生网络的预测结果与教师网络的预测结果相似。具体实现中,可以使用L1损失、L2损失、KL散度等作为蒸馏损失函数的具体形式。此外,还可以引入注意力机制,以更好地对齐教师网络和学生网络的特征表示。
🖼️ 关键图片
📊 实验亮点
V2I-DETR在医学视频病灶检测任务上取得了显著的性能提升,大幅超越了现有的最佳方法。同时,V2I-DETR保持了与图像模型相当的实时推理速度(30 FPS),使其能够满足临床应用的实时性要求。这些实验结果表明,V2I-DETR是一种有效的医学视频病灶检测方法。
🎯 应用场景
V2I-DETR可应用于多种医学视频病灶检测场景,例如结肠镜视频息肉检测、CT/MRI扫描肿瘤检测等。该方法能够提高病灶检测的效率和准确性,辅助医生进行早期诊断和治疗,具有重要的临床应用价值。未来,该方法还可以扩展到其他医学影像分析任务,例如疾病诊断、病情评估等。
📄 摘要(原文)
AI-assisted lesion detection models play a crucial role in the early screening of cancer. However, previous image-based models ignore the inter-frame contextual information present in videos. On the other hand, video-based models capture the inter-frame context but are computationally expensive. To mitigate this contradiction, we delve into Video-to-Image knowledge distillation leveraging DEtection TRansformer (V2I-DETR) for the task of medical video lesion detection. V2I-DETR adopts a teacher-student network paradigm. The teacher network aims at extracting temporal contexts from multiple frames and transferring them to the student network, and the student network is an image-based model dedicated to fast prediction in inference. By distilling multi-frame contexts into a single frame, the proposed V2I-DETR combines the advantages of utilizing temporal contexts from video-based models and the inference speed of image-based models. Through extensive experiments, V2I-DETR outperforms previous state-of-the-art methods by a large margin while achieving the real-time inference speed (30 FPS) as the image-based model.