Region-Normalized DPO for Medical Image Segmentation under Noisy Judges
作者: Hamza Kalisch, Constantin Seibold, Jens Kleesiek, Ken Herrmann, Frederic Jonske
分类: cs.CV
发布日期: 2026-01-30
💡 一句话要点
提出区域归一化DPO,解决医学图像分割中噪声判别器下的微调问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 医学图像分割 直接偏好优化 噪声判别器 区域归一化 偏好学习
📋 核心要点
- 医学图像分割依赖像素级标注,但标注成本高,限制了模型扩展。
- 提出区域归一化DPO(RN-DPO),通过分割区域差异归一化偏好更新,减少噪声影响。
- 实验表明,RN-DPO在医学图像分割任务中,提升了模型性能和优化稳定性。
📝 摘要(中文)
医学图像分割通常依赖于密集的像素级标注,但获取成本高昂且限制了可扩展性。许多已部署的系统会产生廉价的自动质量控制(QC)信号,如模型一致性、不确定性度量或学习到的mask质量分数,这些信号可用于进一步的模型训练,而无需额外的ground-truth标注。然而,这些信号可能存在噪声和偏差,使得基于偏好的微调容易受到有害更新的影响。本文研究了使用直接偏好优化(DPO)从这些噪声判别器中进行分割,使用在小型标记数据集上训练的监督基础分割器生成的提议。研究发现,结果强烈依赖于偏好对的挖掘方式:当判别器可靠时,选择判别器排名最高的提议可以提高峰值性能,但在较弱的判别器下会放大有害错误。本文提出区域归一化DPO(RN-DPO),这是一种分割感知的目标函数,通过mask之间不一致区域的大小来归一化偏好更新,从而减少有害比较的影响并提高优化稳定性。在两个医学数据集和多个方案中,RN-DPO提高了持续性能并稳定了基于偏好的微调,优于标准DPO和强大的基线,而无需额外的像素标注。
🔬 方法详解
问题定义:医学图像分割任务中,获取高质量的像素级标注成本高昂。虽然已部署的系统可以提供自动质量控制信号,但这些信号通常包含噪声和偏差,直接使用这些噪声信号进行微调会导致性能下降,甚至损害模型性能。现有方法难以有效利用这些噪声判别器进行模型优化。
核心思路:核心思路是降低噪声判别器中错误偏好对模型更新的影响。通过观察发现,噪声判别器产生的错误偏好通常集中在分割mask的不一致区域。因此,论文提出对DPO的更新进行区域归一化,减少这些不一致区域对模型更新的贡献,从而提高优化稳定性。
技术框架:整体框架包括以下几个步骤:1) 使用少量标注数据训练一个基础分割模型;2) 使用该模型生成多个分割提议;3) 使用噪声判别器对这些提议进行排序,形成偏好对;4) 使用区域归一化的DPO(RN-DPO)目标函数对模型进行微调。RN-DPO的核心在于对DPO损失函数进行修改,使其对分割mask差异较大的区域进行惩罚。
关键创新:关键创新在于提出了区域归一化的DPO(RN-DPO)目标函数。与标准DPO相比,RN-DPO在计算损失时,会考虑分割mask之间的不一致区域的大小。具体来说,RN-DPO通过将偏好更新除以不一致区域的大小来降低噪声的影响,从而稳定优化过程。
关键设计:RN-DPO的关键设计在于损失函数的修改。假设有两个分割提议mask1和mask2,判别器更偏好mask1。标准DPO会直接使用这个偏好信息更新模型。而RN-DPO会首先计算mask1和mask2之间的不一致区域的大小,然后将DPO的损失除以这个大小。这样,如果mask1和mask2只有很小的差异,那么损失就会很大,模型会更加关注这个偏好。反之,如果mask1和mask2的差异很大,那么损失就会很小,模型会降低对这个偏好的关注。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RN-DPO在两个医学图像分割数据集上均优于标准DPO和其他基线方法。在噪声判别器较弱的情况下,RN-DPO能够显著提高模型的稳定性和最终性能。具体来说,RN-DPO在性能上超越了使用标准DPO方法微调的模型,并且在优化过程中表现出更强的鲁棒性,避免了性能的显著下降。
🎯 应用场景
该研究成果可应用于各种医学图像分割任务,尤其是在标注数据有限或存在噪声标注的情况下。例如,可以利用已有的模型预测结果或医生提供的粗略标注作为噪声判别器,通过RN-DPO对模型进行微调,从而提高分割精度。该方法具有广泛的应用前景,能够降低医学图像分割的标注成本,并提升临床诊断效率。
📄 摘要(原文)
While dense pixel-wise annotations remain the gold standard for medical image segmentation, they are costly to obtain and limit scalability. In contrast, many deployed systems already produce inexpensive automatic quality-control (QC) signals like model agreement, uncertainty measures, or learned mask-quality scores which can be used for further model training without additional ground-truth annotation. However, these signals can be noisy and biased, making preference-based fine-tuning susceptible to harmful updates. We study Direct Preference Optimization (DPO) for segmentation from such noisy judges using proposals generated by a supervised base segmenter trained on a small labeled set. We find that outcomes depend strongly on how preference pairs are mined: selecting the judge's top-ranked proposal can improve peak performance when the judge is reliable, but can amplify harmful errors under weaker judges. We propose Region-Normalized DPO (RN-DPO), a segmentation-aware objective which normalizes preference updates by the size of the disagreement region between masks, reducing the leverage of harmful comparisons and improving optimization stability. Across two medical datasets and multiple regimes, RN-DPO improves sustained performance and stabilizes preference-based fine-tuning, outperforming standard DPO and strong baselines without requiring additional pixel annotations.