Staged Voxel-Level Deep Reinforcement Learning for 3D Medical Image Segmentation with Noisy Annotations

📄 arXiv: 2601.03875v1 📥 PDF

作者: Yuyang Fu, Xiuzhen Guo, Ji Shi

分类: eess.IV, cs.CV

发布日期: 2026-01-07


💡 一句话要点

提出SVL-DRL框架,解决医学图像分割中带噪声标注的问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 医学图像分割 深度强化学习 噪声标注 体素级 异步优势演员-评论家

📋 核心要点

  1. 医学图像分割依赖高质量标注数据,但实际中噪声标注普遍存在,影响模型性能。
  2. 提出SVL-DRL框架,通过阶段式强化学习和体素级代理,动态纠正错误标签。
  3. 实验表明,SVL-DRL在多个数据集上达到SoTA性能,Dice和IoU平均提升3%以上。

📝 摘要(中文)

深度学习在医学图像分割领域取得了显著进展。然而,获得精确的分割结果严重依赖于具有高质量标注的大规模数据集。由于医学图像中器官复杂的形态结构以及不同标注者之间的差异,经常会遇到带噪声的标注,这会大大限制分割模型的有效性。受医学影像标注者可以在分割过程中根据先验知识纠正标注错误的启发,我们提出了一种端到端的阶段式体素级深度强化学习(SVL-DRL)框架,用于在带噪声标注下进行鲁棒的医学图像分割。该框架采用动态迭代更新策略,自动减轻错误标签的影响,而无需人工干预。SVL-DRL的关键进展包括:i) 将噪声标注表述为体素依赖问题,并通过一种新颖的阶段式强化学习框架来解决,从而保证了模型的鲁棒收敛;ii) 结合了一个体素级异步优势演员-评论家(vA3C)模块,该模块将每个体素概念化为一个自主代理,允许每个代理在训练期间动态地细化其自身的状态表示,从而直接减轻错误标签的影响;iii) 为代理设计了一种新颖的动作空间,以及一种策略性地结合Dice值和空间连续性度量的复合奖励函数,以显著提高分割精度,同时保持语义完整性。在三个公共医学图像数据集上的实验表明,在各种实验设置下,该方法都达到了最先进的(SoTA)性能,Dice和IoU分数平均提高了3%以上。

🔬 方法详解

问题定义:论文旨在解决医学图像分割中由于噪声标注导致模型性能下降的问题。现有方法通常依赖于高质量的标注数据,但在实际应用中,由于器官形态复杂、标注者差异等原因,噪声标注难以避免。这些噪声标注会严重影响分割模型的训练效果,导致分割精度降低。

核心思路:论文的核心思路是将噪声标注问题转化为一个体素依赖的强化学习问题。通过将每个体素视为一个独立的智能体,利用强化学习算法动态地修正其状态表示,从而减轻噪声标注的影响。这种方法模拟了医学影像标注者在分割过程中利用先验知识纠正标注错误的过程。

技术框架:SVL-DRL框架包含以下几个主要模块:1) 阶段式强化学习:将训练过程分为多个阶段,逐步优化模型;2) 体素级异步优势演员-评论家(vA3C):每个体素作为一个独立的智能体,通过异步的方式进行训练,利用优势函数评估动作的优劣;3) 动作空间设计:为每个智能体设计合适的动作空间,例如调整体素的标签;4) 复合奖励函数:结合Dice系数和空间连续性度量,引导智能体学习更准确、更符合语义的分割结果。

关键创新:该论文的关键创新在于:1) 提出了阶段式体素级深度强化学习框架,能够有效地处理医学图像分割中的噪声标注问题;2) 引入了vA3C模块,将每个体素视为一个独立的智能体,使其能够动态地修正自身的状态表示;3) 设计了一种新颖的动作空间和复合奖励函数,提高了分割精度和语义完整性。

关键设计:在vA3C模块中,每个体素的状态表示包括其自身的特征以及周围体素的特征。动作空间定义为对体素标签的调整,例如将体素的标签从背景改为器官,或者反之。复合奖励函数由Dice系数和空间连续性度量加权组成,其中Dice系数用于评估分割的准确性,空间连续性度量用于保证分割结果的语义完整性。具体的网络结构和参数设置需要根据具体的数据集进行调整。

📊 实验亮点

实验结果表明,SVL-DRL框架在三个公共医学图像数据集上取得了最先进的性能。与现有方法相比,Dice系数和IoU分数平均提高了3%以上。这表明该方法能够有效地处理噪声标注问题,提高医学图像分割的准确性和鲁棒性。

🎯 应用场景

该研究成果可应用于各种医学图像分割任务,尤其是在标注数据质量不高的情况下。例如,可以用于辅助医生进行疾病诊断、手术规划和疗效评估。该方法能够提高分割精度和鲁棒性,减少人工干预,具有重要的临床应用价值和潜力。

📄 摘要(原文)

Deep learning has achieved significant advancements in medical image segmentation. Currently, obtaining accurate segmentation outcomes is critically reliant on large-scale datasets with high-quality annotations. However, noisy annotations are frequently encountered owing to the complex morphological structures of organs in medical images and variations among different annotators, which can substantially limit the efficacy of segmentation models. Motivated by the fact that medical imaging annotator can correct labeling errors during segmentation based on prior knowledge, we propose an end-to-end Staged Voxel-Level Deep Reinforcement Learning (SVL-DRL) framework for robust medical image segmentation under noisy annotations. This framework employs a dynamic iterative update strategy to automatically mitigate the impact of erroneous labels without requiring manual intervention. The key advancements of SVL-DRL over existing works include: i) formulating noisy annotations as a voxel-dependent problem and addressing it through a novel staged reinforcement learning framework which guarantees robust model convergence; ii) incorporating a voxel-level asynchronous advantage actor-critic (vA3C) module that conceptualizes each voxel as an autonomous agent, which allows each agent to dynamically refine its own state representation during training, thereby directly mitigating the influence of erroneous labels; iii) designing a novel action space for the agents, along with a composite reward function that strategically combines the Dice value and a spatial continuity metric to significantly boost segmentation accuracy while maintain semantic integrity. Experiments on three public medical image datasets demonstrates State-of-The-Art (SoTA) performance under various experimental settings, with an average improvement of over 3\% in both Dice and IoU scores.