PathReasoner-R1: Instilling Structured Reasoning into Pathology Vision-Language Model via Knowledge-Guided Policy Optimization
作者: Songhan Jiang, Fengchun Liu, Ziyue Wang, Linghan Cai, Yongbing Zhang
分类: cs.CV
发布日期: 2026-01-29
🔗 代码/项目: GITHUB
💡 一句话要点
PathReasoner-R1:通过知识引导的策略优化,为病理学视觉-语言模型注入结构化推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 病理学 视觉-语言模型 知识图谱 推理 强化学习 全切片图像 可解释性
📋 核心要点
- 现有VLM病理诊断系统缺乏可验证的证据推理,导致临床信任度低,难以纠正错误。
- PathReasoner-R1通过知识图谱引导,结合监督微调和强化学习,赋予模型结构化推理能力。
- 实验表明,PathReasoner-R1在多个数据集上取得了SOTA性能,提升了病理模型的透明性和临床可靠性。
📝 摘要(中文)
视觉-语言模型(VLM)凭借其卓越的视觉理解能力,正在推动计算病理学的发展。然而,目前的系统通常将诊断简化为直接输出结论,缺乏可验证的、与证据相关的推理过程,这严重限制了临床信任,并阻碍了专家对错误的纠正。为了解决这些障碍,我们构建了PathReasoner,这是第一个大规模的全切片图像(WSI)推理数据集。与以往依赖未经证实的知识蒸馏的工作不同,我们开发了一个严格的知识引导生成流程。通过利用医学知识图谱,我们将结构化的病理学发现和临床推理与诊断明确对齐,生成了超过2万个高质量的教学样本。基于该数据库,我们提出了PathReasoner-R1,它将轨迹掩码监督微调与面向推理的强化学习相结合,以注入结构化的思维链能力。为了确保医学的严谨性,我们设计了一个知识感知的多粒度奖励函数,其中包含一个严格与知识图谱对齐的实体奖励机制。这有效地引导模型优化逻辑一致性,而不是仅仅匹配结果,从而增强了鲁棒性。大量的实验表明,PathReasoner-R1在PathReasoner和公共基准测试中,在各种图像尺度上都取得了最先进的性能,使病理学模型具备了透明的、临床基础的推理能力。数据集和代码可在https://github.com/cyclexfy/PathReasoner-R1获取。
🔬 方法详解
问题定义:现有基于视觉-语言模型的病理诊断方法,通常直接输出诊断结果,缺乏中间推理过程,导致诊断结果缺乏透明性和可解释性,难以被临床医生信任和验证。此外,现有方法依赖于未经验证的知识蒸馏,可能引入偏差,影响模型的准确性和鲁棒性。
核心思路:PathReasoner-R1的核心思路是利用医学知识图谱,显式地将病理学发现、临床推理和最终诊断对齐,从而构建一个结构化的推理链。通过知识引导的策略优化,模型能够学习到符合医学逻辑的推理路径,提高诊断的可靠性和可解释性。
技术框架:PathReasoner-R1的整体框架包括以下几个主要模块:1) 大规模全切片图像(WSI)推理数据集PathReasoner的构建,该数据集包含超过2万个高质量的教学样本,这些样本通过知识图谱引导生成,确保了病理学发现、临床推理和诊断之间的一致性。2) 轨迹掩码监督微调,用于初始化模型的推理能力。3) 面向推理的强化学习,通过知识感知的多粒度奖励函数,引导模型优化推理路径,提高逻辑一致性。
关键创新:PathReasoner-R1最重要的技术创新点在于其知识引导的策略优化方法。与以往依赖未经证实的知识蒸馏的方法不同,PathReasoner-R1利用医学知识图谱,显式地建模病理学推理过程,并通过强化学习,引导模型学习符合医学逻辑的推理路径。此外,知识感知的多粒度奖励函数,能够有效地引导模型优化逻辑一致性,而不是仅仅匹配最终的诊断结果。
关键设计:PathReasoner-R1的关键设计包括:1) 知识图谱引导的数据生成流程,确保了数据集的高质量和一致性。2) 轨迹掩码监督微调,用于初始化模型的推理能力。3) 知识感知的多粒度奖励函数,包括实体奖励机制,用于引导模型优化推理路径。奖励函数的设计严格与知识图谱对齐,确保模型学习到的推理路径符合医学逻辑。
🖼️ 关键图片
📊 实验亮点
PathReasoner-R1在PathReasoner数据集和公共基准测试中取得了最先进的性能。该模型在各种图像尺度上都表现出色,证明了其强大的泛化能力。通过知识引导的策略优化,PathReasoner-R1能够生成透明、可解释的推理过程,显著提升了病理模型的临床可靠性。实验结果表明,该模型能够有效地辅助病理医生进行诊断,提高诊断效率和准确性。
🎯 应用场景
PathReasoner-R1具有广泛的应用前景,可用于辅助病理医生进行诊断,提高诊断效率和准确性。该模型能够提供透明、可解释的推理过程,增强临床医生对诊断结果的信任。此外,PathReasoner-R1还可以用于医学教育和培训,帮助学生和医生学习病理学知识和推理方法。未来,该研究可以扩展到其他医学领域,构建更智能、更可靠的医疗诊断系统。
📄 摘要(原文)
Vision-Language Models (VLMs) are advancing computational pathology with superior visual understanding capabilities. However, current systems often reduce diagnosis to directly output conclusions without verifiable evidence-linked reasoning, which severely limits clinical trust and hinders expert error rectification. To address these barriers, we construct PathReasoner, the first large-scale dataset of whole-slide image (WSI) reasoning. Unlike previous work reliant on unverified distillation, we develop a rigorous knowledge-guided generation pipeline. By leveraging medical knowledge graphs, we explicitly align structured pathological findings and clinical reasoning with diagnoses, generating over 20K high-quality instructional samples. Based on the database, we propose PathReasoner-R1, which synergizes trajectory-masked supervised fine-tuning with reasoning-oriented reinforcement learning to instill structured chain-of-thought capabilities. To ensure medical rigor, we engineer a knowledge-aware multi-granular reward function incorporating an Entity Reward mechanism strictly aligned with knowledge graphs. This effectively guides the model to optimize for logical consistency rather than mere outcome matching, thereby enhancing robustness. Extensive experiments demonstrate that PathReasoner-R1 achieves state-of-the-art performance on both PathReasoner and public benchmarks across various image scales, equipping pathology models with transparent, clinically grounded reasoning capabilities. Dataset and code are available at https://github.com/cyclexfy/PathReasoner-R1.