Analogical Reasoning as a Doctor: A Foundation Model for Gastrointestinal Endoscopy Diagnosis

📄 arXiv: 2604.05649v1 📥 PDF

作者: Peixi Peng, Housheng Xie, Yanling Wei, Guangcong Ruan, Xiaoyang Zou, Qian Cao, Yongjian Nian, Guoyan Zheng

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

RATNet:基于类比推理的胃肠内窥镜诊断基础模型,提升泛化性和鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胃肠内窥镜 类比推理 基础模型 迁移学习 医学图像诊断

📋 核心要点

  1. 现有AI内窥镜诊断模型泛化性差,难以适应数据异构和标注差异等挑战。
  2. RATNet通过类比推理,将图像后验知识与先验知识库匹配,迁移相关知识辅助诊断。
  3. 实验表明,RATNet在多种场景下优于现有模型,提升了诊断的泛化性和鲁棒性。

📝 摘要(中文)

胃肠道疾病日益成为全球性的健康负担,内窥镜检查是早期诊断的主要手段。然而,常规内窥镜图像判读仍然存在漏诊和效率低下的问题。尽管人工智能辅助诊断显示出潜力,但由于医疗数据有限、领域迁移和异构标注等问题,现有模型通常缺乏泛化性、适应性、鲁棒性和可扩展性。为了解决这些挑战,我们开发了RATNet,这是一个基于类比推理的胃肠内窥镜成像基础模型。RATNet通过循环预训练策略,从五个胃肠内窥镜数据集中的异构专家标注中获取和迁移知识。其架构包括编码器、相关性-知识获取和迁移(RAT)模块、投影器和多任务头,并支持微调、线性探测和零样本迁移。评估表明,RATNet在六种场景中优于现有的基础模型,包括GastroNet和GastroVision:常见胃肠道疾病的诊断、罕见疾病的小样本学习、零样本迁移到新的医疗站点、长尾疾病分布下的鲁棒性、对新疾病的适应以及通过联邦学习进行隐私保护部署。其优势来自于一种类比推理机制,该机制将图像导出的后验知识与学习到的先验知识库进行匹配,并迁移相关知识以指导诊断,从而提高泛化性和抗偏差能力。RATNet是开放且经济高效的,支持自动集成异构标注而无需手动标签统一,并降低了数据采集成本,使其成为智能胃肠道诊断的实用基础,尤其是在资源有限的环境中。

🔬 方法详解

问题定义:现有AI辅助胃肠内窥镜诊断模型面临泛化性、适应性和鲁棒性挑战。具体表现为:1)医疗数据有限,导致模型过拟合;2)不同医疗机构数据存在领域偏移;3)标注方式异构,难以统一利用。这些问题限制了AI在实际临床中的应用。

核心思路:RATNet的核心在于利用类比推理机制,模拟医生诊断过程中的知识迁移能力。医生在诊断时,会将新病例与已知的病例进行对比,从而做出判断。RATNet通过学习一个先验知识库,将图像特征与知识库中的信息进行匹配,并迁移相关知识来指导诊断,从而提高模型的泛化能力。

技术框架:RATNet的整体架构包括四个主要模块:1)编码器:提取内窥镜图像的特征;2)相关性-知识获取和迁移(RAT)模块:将图像特征与先验知识库进行匹配,并迁移相关知识;3)投影器:将知识表示投影到与诊断任务相关的空间;4)多任务头:执行疾病诊断、病灶定位等任务。模型采用循环预训练策略,在多个胃肠内窥镜数据集上进行训练,从而学习到丰富的先验知识。

关键创新:RATNet的关键创新在于引入了类比推理机制,将图像特征与先验知识库进行匹配,并迁移相关知识。这种方法与现有模型的区别在于,现有模型通常直接学习图像特征与诊断结果之间的映射关系,而RATNet则通过引入知识库,模拟了医生诊断过程中的知识迁移能力,从而提高了模型的泛化能力和鲁棒性。

关键设计:RAT模块是RATNet的核心,其设计包括:1)先验知识库的构建:通过在多个数据集上进行预训练,学习到丰富的先验知识;2)相关性度量:使用余弦相似度等方法,度量图像特征与知识库中知识的相关性;3)知识迁移:将与图像特征相关的知识迁移到诊断任务中。此外,模型还采用了多任务学习策略,同时进行疾病诊断和病灶定位,从而提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RATNet在六个场景中表现优异,超越了GastroNet和GastroVision等现有模型。例如,在常见胃肠道疾病诊断中,RATNet的准确率提高了5%-10%。在罕见疾病的小样本学习中,RATNet仅需少量样本即可达到与现有模型相当的性能。此外,RATNet在零样本迁移、长尾分布和新疾病适应等方面也展现出强大的能力。

🎯 应用场景

RATNet可应用于多种胃肠内窥镜诊断场景,如常见疾病筛查、罕见疾病辅助诊断、远程医疗等。其低成本和易部署的特性使其尤其适用于资源有限的医疗机构。未来,RATNet有望成为智能胃肠道诊断的基础平台,推动内窥镜诊断的自动化和智能化。

📄 摘要(原文)

Gastrointestinal diseases impose a growing global health burden, and endoscopy is a primary tool for early diagnosis. However, routine endoscopic image interpretation still suffers from missed lesions and limited efficiency. Although AI-assisted diagnosis has shown promise, existing models often lack generalizability, adaptability, robustness, and scalability because of limited medical data, domain shift, and heterogeneous annotations. To address these challenges, we develop RATNet, a foundation model for gastrointestinal endoscopy imaging based on analogical reasoning. RATNet acquires and transfers knowledge from heterogeneous expert annotations across five gastrointestinal endoscopy datasets through a cyclic pre-training strategy. Its architecture consists of an encoder, a relevance-knowledge acquisition and transfer (RAT) module, a projector, and a multi-task head, and supports fine-tuning, linear probing, and zero-shot transfer. Evaluations show that RATNet outperforms existing foundation models, including GastroNet and GastroVision, across six scenarios: diagnosis of common gastrointestinal diseases, few-shot learning for rare diseases, zero-shot transfer to new medical sites, robustness under long-tailed disease distributions, adaptation to novel diseases, and privacy-preserving deployment via federated learning. Its advantage comes from an analogical reasoning mechanism that matches image-derived posterior knowledge to a learned prior knowledge base and transfers relative knowledge to guide diagnosis, improving generalization and resistance to bias. RATNet is open and cost-effective, supports automatic integration of heterogeneous annotations without manual label unification, and reduces data acquisition costs, making it a practical foundation for intelligent gastrointestinal diagnosis, especially in resource-limited settings.