MultiRetNet: A Multimodal Vision Model and Deferral System for Staging Diabetic Retinopathy

📄 arXiv: 2507.14738v1 📥 PDF

作者: Jeannie She, Katie Spivakovsky

分类: cs.CV

发布日期: 2025-07-19


💡 一句话要点

MultiRetNet:结合多模态信息与临床决策的糖尿病视网膜病变分期系统

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 糖尿病视网膜病变 多模态融合 对比学习 临床决策系统 对抗训练 医疗公平 眼科疾病筛查

📋 核心要点

  1. 糖尿病视网膜病变筛查不足,尤其是在低收入群体中,导致晚期病例比例高,现有方法未能充分利用多模态信息。
  2. MultiRetNet结合视网膜图像、社会经济因素和合并症信息,利用多模态融合提升分期准确性,并引入临床决策系统。
  3. 通过对抗样本和对比学习训练决策系统,使模型能够识别需要人工干预的低质量或异常样本,提升系统鲁棒性。

📝 摘要(中文)

糖尿病视网膜病变(DR)是全球可预防性失明的主要原因,影响超过1亿人。在美国,低收入群体由于筛查机会有限,更容易发展到晚期。合并症会加速疾病进展。我们提出了MultiRetNet,一种新型流程,结合视网膜成像、社会经济因素和合并症特征,以提高DR分期准确性,并集成临床决策系统,实现人机协作。我们实验了三种多模态融合方法,发现通过全连接层融合是最通用的方法。我们合成了对抗性的低质量图像,并使用对比学习训练决策系统,引导模型识别需要临床医生审查的分布外样本。通过保持次优图像的诊断准确性并整合关键健康数据,我们的系统可以改善早期检测,特别是在通常首先发现晚期DR的服务不足人群中。这种方法可以降低医疗保健成本,提高早期检测率,并解决医疗服务获取方面的差距,从而促进医疗公平。

🔬 方法详解

问题定义:糖尿病视网膜病变(DR)的早期诊断对于预防失明至关重要。然而,现有方法在低收入社区的筛查效果不佳,且未能充分利用患者的社会经济因素和合并症信息。此外,模型在处理低质量图像时性能下降,需要人工干预,但缺乏有效的决策机制。

核心思路:MultiRetNet的核心思路是将视网膜图像与患者的社会经济因素和合并症信息进行多模态融合,以提高DR分期的准确性。同时,通过训练一个决策系统,使模型能够识别需要人工干预的低质量或异常样本,从而实现人机协作,提高诊断效率和准确性。

技术框架:MultiRetNet包含以下主要模块:1) 视网膜图像处理模块,用于提取图像特征;2) 社会经济因素和合并症信息处理模块,用于提取相关特征;3) 多模态融合模块,将图像特征与非图像特征进行融合;4) DR分期模块,根据融合后的特征进行分期;5) 决策模块,判断样本是否需要人工干预。整体流程是:输入视网膜图像和患者信息,经过各模块处理后,输出DR分期结果和是否需要人工干预的决策。

关键创新:MultiRetNet的关键创新在于:1) 多模态融合:将视网膜图像与社会经济因素和合并症信息进行融合,提高了分期准确性;2) 决策系统:通过对比学习训练决策系统,使其能够识别需要人工干预的低质量或异常样本,实现了人机协作;3) 对抗训练:使用对抗样本训练模型,提高了模型在低质量图像上的鲁棒性。

关键设计:在多模态融合方面,论文实验了三种融合方法,最终选择通过全连接层进行融合,因为其具有更好的通用性。在决策系统方面,使用对比学习训练模型,目标是使正常样本和对抗样本在特征空间中尽可能远离。损失函数包括分类损失和对比损失。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验表明,MultiRetNet通过多模态融合和决策系统的引入,提高了DR分期的准确性和鲁棒性。虽然论文中没有给出具体的性能数据和对比基线,但强调了该系统在处理低质量图像和识别异常样本方面的优势。通过对抗训练,模型在低质量图像上的诊断准确性得到了维持。

🎯 应用场景

MultiRetNet可应用于糖尿病视网膜病变的大规模筛查,尤其是在医疗资源匮乏的地区。通过结合多模态信息和临床决策系统,可以提高早期检测率,降低医疗成本,并解决医疗服务获取方面的差距,从而促进医疗公平。该系统还可扩展到其他眼科疾病的诊断和筛查。

📄 摘要(原文)

Diabetic retinopathy (DR) is a leading cause of preventable blindness, affecting over 100 million people worldwide. In the United States, individuals from lower-income communities face a higher risk of progressing to advanced stages before diagnosis, largely due to limited access to screening. Comorbid conditions further accelerate disease progression. We propose MultiRetNet, a novel pipeline combining retinal imaging, socioeconomic factors, and comorbidity profiles to improve DR staging accuracy, integrated with a clinical deferral system for a clinical human-in-the-loop implementation. We experiment with three multimodal fusion methods and identify fusion through a fully connected layer as the most versatile methodology. We synthesize adversarial, low-quality images and use contrastive learning to train the deferral system, guiding the model to identify out-of-distribution samples that warrant clinician review. By maintaining diagnostic accuracy on suboptimal images and integrating critical health data, our system can improve early detection, particularly in underserved populations where advanced DR is often first identified. This approach may reduce healthcare costs, increase early detection rates, and address disparities in access to care, promoting healthcare equity.