Representation learning from OCT images

📄 arXiv: 2605.02589v1 📥 PDF

作者: Hedi Tabia, Désiré Sidibé, Nawres Khlifa, Ahmed Tabia, Ines Rahmany, Noura Aboudi, Zainab Haddad, Hajer Khachnaoui, Hsouna Zgolli

分类: cs.CV, cs.LG

发布日期: 2026-05-04


💡 一句话要点

综述:基于OCT图像的表征学习方法,涵盖深度学习到视觉语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: OCT图像分析 表征学习 深度学习 自监督学习 医学图像处理 眼科 基础模型 视觉语言模型

📋 核心要点

  1. 现有OCT图像分析方法依赖专家标注,成本高昂且一致性难以保证,限制了大规模应用。
  2. 本文对OCT图像表征学习方法进行全面综述,涵盖监督、自监督、生成模型以及多模态学习等。
  3. 该综述总结了现有方法的局限性,并指出了未来研究方向,如体积基础模型和不确定性感知学习。

📝 摘要(中文)

光学相干断层扫描(OCT)已成为眼科中最常用的成像方式之一,它能以高分辨率、非侵入方式可视化视网膜微结构。通过表征学习自动分析OCT图像已成为研究前沿,这主要由处理大量采集数据的临床需求驱动。其目标是减少对专家标注的依赖,并提高设备和人群之间的诊断一致性。本综述全面且系统地回顾了用于视网膜OCT图像分析的表征学习方法,涵盖了从早期深度学习方法到最新的基础模型和视觉语言系统的发展。我们按照学习范式的原则性分类组织文献,包括基于CNN和Transformer架构的监督学习、自监督和半监督方法、生成方法,以及3D体积建模、多模态表征学习和大规模预训练基础模型。对于每种范式,我们分析了核心方法论贡献,识别了持续存在的局限性,并追溯了连续方法之间的联系。我们进一步提供了公开可用的OCT数据集的结构化概述,讨论了评估协议的考虑因素,并提出了一个统一的问题公式,将每个学习范式置于一个共同的数学框架中。基于此分析,我们识别并讨论了文献中出现的最紧迫的开放研究方向,包括体积基础模型预训练、不确定性感知表征学习、联邦和隐私保护训练、公平性和偏差缓解、基于概念的可解释性等。

🔬 方法详解

问题定义:现有OCT图像分析方法依赖于大量的专家标注,这不仅耗时耗力,而且不同专家之间的标注结果可能存在差异,导致诊断结果的不一致性。此外,不同设备和人群之间的数据分布差异也给模型的泛化能力带来了挑战。因此,如何减少对专家标注的依赖,提高诊断一致性,并增强模型的泛化能力是OCT图像分析领域面临的关键问题。

核心思路:本文的核心思路是对现有的OCT图像表征学习方法进行系统的梳理和总结,并从学习范式的角度对这些方法进行分类。通过分析每种范式的核心方法论贡献和局限性,以及它们之间的联系,为研究人员提供一个全面的视角,从而更好地理解和应用这些方法。此外,本文还指出了未来研究的潜在方向,例如体积基础模型预训练和不确定性感知表征学习等。

技术框架:本文的综述框架主要包括以下几个部分:首先,对OCT图像分析的背景和意义进行介绍;其次,按照学习范式对现有的表征学习方法进行分类,包括监督学习、自监督学习、半监督学习、生成方法、3D体积建模、多模态表征学习和大规模预训练基础模型等;然后,对每种范式的核心方法论贡献、局限性和联系进行分析;接着,对公开可用的OCT数据集进行结构化概述,并讨论评估协议的考虑因素;最后,提出了一个统一的问题公式,将每个学习范式置于一个共同的数学框架中,并指出了未来研究的潜在方向。

关键创新:本文的创新之处在于对OCT图像表征学习方法进行了全面且系统的综述,并从学习范式的角度对这些方法进行了分类。与以往的综述相比,本文不仅涵盖了传统的深度学习方法,还包括了最新的基础模型和视觉语言系统。此外,本文还指出了未来研究的潜在方向,例如体积基础模型预训练和不确定性感知表征学习等,为研究人员提供了有价值的参考。

关键设计:本文的关键设计在于对学习范式的分类和分析。通过将现有的表征学习方法按照监督学习、自监督学习、半监督学习等不同的范式进行分类,可以更清晰地了解每种方法的优缺点和适用场景。此外,本文还对公开可用的OCT数据集进行了结构化概述,并讨论了评估协议的考虑因素,为研究人员提供了方便。在数学公式方面,本文提出了一个统一的问题公式,将每个学习范式置于一个共同的框架中,有助于理解不同方法之间的联系。

🖼️ 关键图片

fig_0

📊 实验亮点

该综述全面回顾了OCT图像表征学习的最新进展,涵盖了从传统CNN到Transformer以及视觉语言模型等多种方法。特别强调了自监督学习和基础模型在减少标注依赖方面的潜力,并指出了未来在体积数据处理、不确定性建模和公平性方面的研究方向。

🎯 应用场景

该研究成果可应用于眼科疾病的自动诊断、疾病进展的预测和个性化治疗方案的制定。通过减少对专家标注的依赖,降低诊断成本,提高诊断效率和准确性。未来,结合多模态数据和临床信息,有望实现更精准的疾病管理和预防。

📄 摘要(原文)

Optical Coherence Tomography (OCT) has become one of the most used imaging modality in ophthalmology. It provides high-resolution, non-invasive visualization of retinal microarchitecture. The automated analysis of OCT images through representation learning has emerged as a central research frontier. This has mainly been driven by the clinical need to process large acquisition volumes. The objective is to reduce the reliance on expert annotation, and improve diagnostic consistency across devices and populations. This survey provides a comprehensive and structured review of representation learning methods for retinal OCT image analysis. It covers the period from early deep learning approaches to the most recent developments in foundation models and vision-language systems. We organize the literature along a principled taxonomy of learning paradigms, encompassing supervised learning with CNN-based and transformer-based architectures, self-supervised and semi-supervised methods, generative approaches, as well as 3D volumetric modeling, multimodal representation learning, and large-scale pretrained foundation models. For each paradigm, we analyze the core methodological contributions, identify persistent limitations, and trace the connections between successive approaches. We further provide a structured overview of publicly available OCT datasets, discuss evaluation protocol considerations, and present a unified problem formulation that situates each learning paradigm within a common mathematical framework. Building on this analysis, we identify and discuss the most pressing open research directions emerging in the literature. This includes volumetric foundation model pretraining, uncertainty-aware representation learning, federated and privacy-preserving training, fairness and bias mitigation, concept-based interpretability,...