DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis

📄 arXiv: 2507.18433v1 📥 PDF

作者: Minxi Ouyang, Lianghui Zhu, Yaqing Bao, Qiang Huang, Jingli Ouyang, Tian Guan, Xitong Ling, Jiawen Li, Song Duan, Wenbin Dai, Li Zheng, Xuemei Zhang, Yonghong He

分类: eess.IV, cs.CV

发布日期: 2025-07-24


💡 一句话要点

DiagR1:通过强化学习训练的消化病理诊断视觉-语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 病理诊断 强化学习 提示学习 多模态学习

📋 核心要点

  1. 现有胃肠病理多模态模型受限于数据噪声和标注不完整,导致模型产生幻觉和推理不透明。
  2. 论文提出一种提示论证策略,结合病灶分类和解剖部位信息,引导模型捕捉图像特征并保持语义一致性。
  3. 通过监督微调和组相对策略优化(GRPO),显著提升了生成质量、结构完整性和临床相关性。

📝 摘要(中文)

多模态大型模型在自动化病理图像分析中显示出巨大潜力。然而,目前用于胃肠病理的多模态模型受到数据质量和推理透明性的限制:公共数据集中普遍存在的噪声和不完整的标注使视觉语言模型在生成诊断文本时容易产生事实幻觉,而缺乏明确的中间推理链使得输出难以审核,从而降低了临床实践中的可信度。为了解决这些问题,我们构建了一个包含微观描述和诊断结论的大规模胃肠病理数据集,并提出了一种包含病灶分类和解剖部位信息的提示论证策略。这种设计引导模型更好地捕捉图像特定特征,并在生成中保持语义一致性。此外,我们采用了一种结合监督微调和组相对策略优化(GRPO)的后训练流程,以提高推理质量和输出结构。在真实病理报告生成任务上的实验结果表明,我们的方法在生成质量、结构完整性和临床相关性方面显著优于最先进的开源和专有基线。我们的解决方案优于最先进的模型,临床相关性提高了18.7%,结构完整性提高了32.4%,诊断错误减少了41.2%,表明与现有解决方案相比,具有更高的准确性和临床实用性。

🔬 方法详解

问题定义:现有胃肠病理图像分析的多模态模型,由于训练数据集中存在噪声和标注不完整,导致模型在生成诊断报告时容易出现“幻觉”,即生成不符合实际情况的内容。此外,模型缺乏明确的推理过程,使得诊断结果难以追溯和验证,降低了临床可信度。

核心思路:论文的核心思路是通过构建高质量的胃肠病理数据集,并结合提示论证策略和强化学习方法,来提高模型的生成质量、结构完整性和临床相关性。提示论证策略旨在引导模型关注图像的关键特征,并保持语义一致性。强化学习则用于优化模型的推理过程和输出结构。

技术框架:该方法包含以下几个主要阶段:1) 构建大规模胃肠病理数据集,包含微观描述和诊断结论;2) 设计提示论证策略,将病灶分类和解剖部位信息融入到模型输入中;3) 使用监督微调对模型进行初步训练;4) 采用组相对策略优化(GRPO)进行强化学习,以提高推理质量和输出结构。

关键创新:论文的关键创新在于结合了提示论证策略和组相对策略优化(GRPO)的强化学习方法。提示论证策略通过引入病灶分类和解剖部位信息,增强了模型对图像特征的理解能力。GRPO则通过优化模型的推理过程和输出结构,提高了生成报告的质量和可信度。与现有方法相比,该方法更注重模型的推理透明性和临床实用性。

关键设计:提示论证策略的具体实现方式未知,但可以推测其可能涉及对输入文本进行结构化处理,例如将病灶分类和解剖部位信息作为独立的提示词添加到输入中。GRPO的具体实现细节也未知,但可以推测其可能涉及设计特定的奖励函数,以鼓励模型生成更准确、更完整、更符合临床规范的报告。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiagR1在真实病理报告生成任务上显著优于现有模型,临床相关性提高了18.7%,结构完整性提高了32.4%,诊断错误减少了41.2%。这些数据表明,该方法在提高病理诊断的准确性和临床实用性方面具有显著优势。

🎯 应用场景

该研究成果可应用于自动化病理诊断,辅助病理医生进行快速、准确的诊断,提高诊断效率和准确性,尤其是在病理医生资源匮乏的地区具有重要意义。未来,该技术有望扩展到其他医学影像领域,实现更广泛的临床应用。

📄 摘要(原文)

Multimodal large models have shown great potential in automating pathology image analysis. However, current multimodal models for gastrointestinal pathology are constrained by both data quality and reasoning transparency: pervasive noise and incomplete annotations in public datasets predispose vision language models to factual hallucinations when generating diagnostic text, while the absence of explicit intermediate reasoning chains renders the outputs difficult to audit and thus less trustworthy in clinical practice. To address these issues, we construct a large scale gastrointestinal pathology dataset containing both microscopic descriptions and diagnostic conclusions, and propose a prompt argumentation strategy that incorporates lesion classification and anatomical site information. This design guides the model to better capture image specific features and maintain semantic consistency in generation. Furthermore, we employ a post training pipeline that combines supervised fine tuning with Group Relative Policy Optimization (GRPO) to improve reasoning quality and output structure. Experimental results on real world pathology report generation tasks demonstrate that our approach significantly outperforms state of the art open source and proprietary baselines in terms of generation quality, structural completeness, and clinical relevance. Our solution outperforms state of the art models with 18.7% higher clinical relevance, 32.4% improved structural completeness, and 41.2% fewer diagnostic errors, demonstrating superior accuracy and clinical utility compared to existing solutions.