Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models

作者: Ruiyang Li, Fang Liu, Licheng Jiao, Xinglin Xie, Jiayao Hao, Shuo Li, Xu Liu, Jingyi Yang, Lingling Li, Puhua Chen, Wenping Ma

分类: cs.AI

发布日期: 2026-04-13

💡 一句话要点

利用视觉基础模型估计医学图像分割中的本征不确定性，提升模型鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学图像分割 本征不确定性 视觉基础模型 数据过滤 动态优化 语义感知尺度 标签去噪

📋 核心要点

医学图像分割面临数据噪声和标注模糊带来的不确定性，现有方法对数据内在不确定性的探索不足。
利用视觉基础模型的通用表示能力，通过分析特征多样性和奇异值能量来估计样本的本征不确定性。
设计了不确定性感知的数据过滤和动态优化策略，在多个数据集和网络架构上取得了显著的性能提升。

📝 摘要（中文）

医学图像分割通过精确描绘解剖结构和病灶来支持临床工作流程。然而，医学图像数据集受到采集噪声和标注模糊的影响，导致普遍存在的数据不确定性，严重削弱了模型的鲁棒性。现有研究主要集中在模型架构改进和预测可靠性估计上，而对内在数据不确定性的系统探索仍然不足。为了解决这个问题，本文提出利用视觉基础模型的通用表示能力来估计固有的数据不确定性。具体来说，我们分析模型解码表示的特征多样性，并量化其奇异值能量，从而定义每个类的语义感知尺度，以此来衡量样本难度和本征不确定性。在此基础上，我们设计了两种不确定性驱动的应用策略：（1）本征不确定性感知的数据过滤机制，以消除潜在的噪声样本并提高模型学习质量；（2）动态不确定性感知的优化策略，该策略在训练期间基于语义感知尺度自适应地调整特定于类的损失权重，并结合标签去噪机制以提高训练稳定性。在包含CT和MRI模态以及涉及多器官和肿瘤分割任务的五个公共数据集上的实验结果表明，我们的方法在各种主流网络架构上实现了显着且稳健的性能改进，揭示了本征不确定性在医学图像理解和分割任务中的广泛应用潜力。

🔬 方法详解

问题定义：医学图像分割任务中，由于数据采集过程中的噪声和标注的主观性，导致数据集中存在大量的不确定性。这种不确定性会严重影响分割模型的训练和泛化能力，降低模型在实际临床应用中的可靠性。现有方法主要关注模型结构的改进和预测结果的可靠性评估，而忽略了对数据本身内在不确定性的分析和处理。

核心思路：本文的核心思路是利用视觉基础模型强大的特征提取能力，从模型解码的特征表示中提取语义信息，并基于这些信息来量化数据的不确定性。通过分析特征的多样性和奇异值能量，可以得到每个类别的语义感知尺度，从而衡量样本的难度和本征不确定性。这种方法能够更准确地捕捉数据内在的不确定性，为后续的数据过滤和模型优化提供依据。

技术框架：整体框架包含三个主要部分：1) 利用视觉基础模型提取图像特征；2) 基于提取的特征计算每个类别的语义感知尺度，并以此量化样本的本征不确定性；3) 基于不确定性设计数据过滤机制和动态优化策略。数据过滤机制用于去除噪声样本，提高数据质量。动态优化策略则根据样本的不确定性自适应地调整损失权重，并结合标签去噪机制，提高训练的稳定性和模型的鲁棒性。

关键创新：最重要的创新点在于利用视觉基础模型来估计医学图像分割中的本征不确定性。与现有方法不同，本文不是直接改进模型结构或评估预测结果，而是深入分析数据本身的不确定性，并将其作为指导模型训练的关键信息。通过语义感知尺度来量化不确定性的方法，能够更准确地捕捉数据内在的噪声和模糊性。

关键设计：语义感知尺度的计算是关键设计之一，通过分析模型解码表示的特征多样性，并量化其奇异值能量来定义。不确定性感知的数据过滤机制，根据设定的阈值过滤掉高不确定性的样本。动态不确定性感知的优化策略，根据语义感知尺度自适应地调整类别损失权重，并采用标签去噪机制来提高训练稳定性。损失函数的设计也至关重要，需要平衡不同类别之间的损失，并考虑样本的不确定性。

🖼️ 关键图片

📊 实验亮点

在五个公共数据集（包含CT和MRI模态，涉及多器官和肿瘤分割任务）上的实验结果表明，该方法在各种主流网络架构上实现了显著且稳健的性能改进。实验结果验证了该方法在医学图像理解和分割任务中的广泛应用潜力，并证明了利用视觉基础模型估计本征不确定性的有效性。

🎯 应用场景

该研究成果可应用于多种医学图像分割任务，例如多器官分割、肿瘤分割等。通过提高分割模型的鲁棒性和准确性，可以辅助医生进行更精确的诊断和治疗计划。此外，该方法还可以用于医学图像数据集的清洗和质量控制，提高数据集的质量，从而促进医学图像分析领域的发展。

📄 摘要（原文）

Medical image segmentation supports clinical workflows by precisely delineating anatomical structures and lesions. However, medical image datasets medical image datasets suffer from acquisition noise and annotation ambiguity, causing pervasive data uncertainty that substantially undermines model robustness. Existing research focuses primarily on model architectural improvements and predictive reliability estimation, while systematic exploration of the intrinsic data uncertainty remains insufficient. To address this gap, this work proposes leveraging the universal representation capabilities of visual foundation models to estimate inherent data uncertainty. Specifically, we analyze the feature diversity of the model's decoded representations and quantify their singular value energy to define the semantic perception scale for each class, thereby measuring sample difficulty and aleatoric uncertainty. Based on this foundation, we design two uncertainty-driven application strategies: (1) the aleatoric uncertainty-aware data filtering mechanism to eliminate potentially noisy samples and enhance model learning quality; (2) the dynamic uncertainty-aware optimization strategy that adaptively adjusts class-specific loss weights during training based on the semantic perception scale, combined with a label denoising mechanism to improve training stability. Experimental results on five public datasets encompassing CT and MRI modalities and involving multi-organ and tumor segmentation tasks demonstrate that our method achieves significant and robust performance improvements across various mainstream network architectures, revealing the broad application potential of aleatoric uncertainty in medical image understanding and segmentation tasks.

Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理