MedLoc-R1: Performance-Aware Curriculum Reward Scheduling for GRPO-Based Medical Visual Grounding

作者: Guangjing Yang, Ziyuan Qin, Chaoran Zhang, Chenlin Du, Jinlin Wang, Wanran Sun, Zhenyu Zhang, Bing Ji, Qicheng Lao

分类: cs.CV

发布日期: 2026-03-30

备注: 2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

🔗 代码/项目: GITHUB

💡 一句话要点

MedLoc-R1：基于GRPO的医学视觉定位性能感知课程奖励调度

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学视觉定位 强化学习 奖励调度 课程学习 GRPO 性能感知 医学影像分析

📋 核心要点

现有基于GRPO的医学视觉定位方法在奖励稀疏环境下存在梯度消失和优化停滞问题。
MedLoc-R1通过性能感知的奖励调度，动态调整奖励标准，解决了奖励稀疏问题。
实验表明，MedLoc-R1在多个医学视觉定位基准上显著提高了定位精度和训练稳定性。

📝 摘要（中文）

医学视觉定位是细粒度多模态推理和可解释临床决策支持的关键基础。尽管强化学习(RL)在定位任务中取得了进展，但现有方法（如Group Relative Policy Optimization，GRPO）直接应用于医学图像时，会面临严重的奖励稀疏问题，这主要是由于定位小区域或模糊区域的固有难度，以及RL中基于IoU的固定奖励方案的刚性和次优性。这导致策略梯度消失和优化停滞，尤其是在早期训练阶段。为了解决这个问题，我们提出了MedLoc-R1，一个性能感知的奖励调度框架，它根据模型的准备程度逐步收紧奖励标准。MedLoc-R1引入了一个滑动窗口性能跟踪器和一个多条件更新规则，可以自动调整奖励计划，从密集的、容易获得的信号到更严格的、细粒度的定位要求，同时保留GRPO的良好特性，而无需引入辅助网络或额外的梯度路径。在三个医学视觉定位基准上的实验表明，MedLoc-R1始终提高了基于GRPO的基线的定位精度和训练稳定性。我们的框架为高风险医疗应用中基于RL的定位提供了一个通用、轻量级和有效的解决方案。

🔬 方法详解

问题定义：医学视觉定位旨在从医学图像中定位与给定文本描述相关的特定区域。现有基于强化学习的方法，特别是GRPO，在医学图像上应用时，由于小目标和模糊区域的存在，以及固定IoU奖励的局限性，导致奖励稀疏，训练早期梯度消失，模型难以有效学习。

核心思路：MedLoc-R1的核心思路是根据模型自身的学习进度，动态调整奖励的严格程度。在训练初期，使用较为宽松的奖励标准，鼓励模型探索；随着模型性能的提升，逐步收紧奖励标准，促使模型进行更精确的定位。这种性能感知的课程学习方式能够缓解奖励稀疏问题，加速模型收敛。

技术框架：MedLoc-R1建立在GRPO框架之上，主要包含以下模块：1) GRPO策略网络：负责生成定位框；2) 滑动窗口性能跟踪器：用于评估模型在一段时间内的定位性能；3) 多条件更新规则：根据性能跟踪器的结果，动态调整IoU奖励阈值。整体流程是：GRPO策略网络生成定位框，计算IoU奖励，滑动窗口性能跟踪器评估性能，多条件更新规则根据性能调整IoU阈值，更新策略网络。

关键创新：MedLoc-R1的关键创新在于性能感知的奖励调度机制。与传统的固定奖励方案不同，MedLoc-R1能够根据模型的实际表现，自适应地调整奖励标准，从而更有效地引导模型学习。这种动态调整机制避免了早期训练的梯度消失和后期训练的精度不足问题。

关键设计：MedLoc-R1的关键设计包括：1) 滑动窗口性能跟踪器：使用滑动窗口平均IoU作为性能指标，平滑性能波动；2) 多条件更新规则：根据滑动窗口平均IoU与预设阈值的比较结果，动态调整IoU奖励阈值。具体而言，当平均IoU低于阈值时，降低IoU阈值，反之则提高IoU阈值。这种基于多条件的更新规则能够实现奖励的平滑过渡，避免剧烈波动。

🖼️ 关键图片

📊 实验亮点

MedLoc-R1在三个医学视觉定位基准上进行了评估，结果表明，与基于GRPO的基线方法相比，MedLoc-R1在定位精度和训练稳定性方面均有显著提升。具体而言，在某些数据集上，MedLoc-R1的定位精度提高了5%以上，并且训练过程更加稳定，收敛速度更快。这些实验结果验证了MedLoc-R1的有效性和优越性。

🎯 应用场景

MedLoc-R1可应用于多种医学影像分析任务，例如病灶定位、器官分割和医学报告生成。通过提高医学视觉定位的准确性和稳定性，该研究有助于医生更准确地诊断疾病，制定更有效的治疗方案，并最终改善患者的治疗效果。未来，该技术有望与临床决策支持系统集成，为医生提供更智能化的辅助诊断工具。

📄 摘要（原文）

Medical visual grounding serves as a crucial foundation for fine-grained multimodal reasoning and interpretable clinical decision support. Despite recent advances in reinforcement learning (RL) for grounding tasks, existing approaches such as Group Relative Policy Optimization~(GRPO) suffer from severe reward sparsity when directly applied to medical images, primarily due to the inherent difficulty of localizing small or ambiguous regions of interest, which is further exacerbated by the rigid and suboptimal nature of fixed IoU-based reward schemes in RL. This leads to vanishing policy gradients and stagnated optimization, particularly during early training. To address this challenge, we propose MedLoc-R1, a performance-aware reward scheduling framework that progressively tightens the reward criterion in accordance with model readiness. MedLoc-R1 introduces a sliding-window performance tracker and a multi-condition update rule that automatically adjust the reward schedule from dense, easily obtainable signals to stricter, fine-grained localization requirements, while preserving the favorable properties of GRPO without introducing auxiliary networks or additional gradient paths. Experiments on three medical visual grounding benchmarks demonstrate that MedLoc-R1 consistently improves both localization accuracy and training stability over GRPO-based baselines. Our framework offers a general, lightweight, and effective solution for RL-based grounding in high-stakes medical applications. Code \& checkpoints are available at \hyperlink{}{https://github.com/MembrAI/MedLoc-R1}.

MedLoc-R1: Performance-Aware Curriculum Reward Scheduling for GRPO-Based Medical Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理