Evaluating an evidence-guided reinforcement learning framework in aligning light-parameter large language models with decision-making cognition in psychiatric clinical reasoning

📄 arXiv: 2602.06449v1 📥 PDF

作者: Xinxin Lin, Guangxin Dai, Yi Zhong, Xiang Li, Xue Xiao, Yixin Zhang, Zhengdong Wu, Yongbo Zheng, Runchuan Zhu, Ming Zhao, Huizi Yu, Shuo Wu, Jun Zhao, Lingming Hu, Yumei Wang, Ping Yin, Joey W. Y. Chan, Ngan Yin Chan, Sijing Chen, Yun Kwok Wing, Lin Lu, Xin Ma, Lizhou Fan

分类: cs.CL

发布日期: 2026-02-06

备注: 21 pages, 8 figures


💡 一句话要点

ClinMPO:证据引导强化学习提升轻量级LLM在精神病学临床推理中的决策认知能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 精神病学 临床推理 循证医学

📋 核心要点

  1. 现有LLM在精神病学应用中存在幻觉和推理不足的问题,尤其是在注重隐私和效率的轻量级模型中。
  2. ClinMPO框架通过证据引导的强化学习,使LLM的推理与专业精神病学实践对齐,提升决策认知能力。
  3. 实验表明,ClinMPO调整后的Qwen3-8B模型在复杂案例中超越了人类医学生的诊断准确率基准。

📝 摘要(中文)

大型语言模型(LLM)在医疗决策支持方面具有变革潜力,但其在精神病学中的应用受到幻觉和肤浅推理的限制。这种限制在轻量级LLM中尤为突出,而轻量级LLM对于保护隐私和高效的临床部署至关重要。现有的训练范式优先考虑语言流畅性而非结构化的临床逻辑,导致与专业诊断认知存在根本性的不一致。本文介绍ClinMPO,一种强化学习框架,旨在使LLM的内部推理与专业的精神病学实践相一致。该框架采用专门的奖励模型,该模型基于从4474篇精神病学期刊文章中提取并根据循证医学原则构建的数据集进行独立训练。我们在一个旨在将推理能力与死记硬背隔离的基准测试的未见子集上评估了ClinMPO。该测试集包含领先的大参数LLM始终失败的项目。我们将ClinMPO调整后的轻量级LLM的性能与300名医学生的队列进行了比较。经过ClinMPO调整的Qwen3-8B模型在这些复杂案例中实现了31.4%的诊断准确率,超过了30.8%的人工基准。这些结果表明,医学证据引导的优化使轻量级LLM能够掌握复杂的推理任务。我们的研究结果表明,显式的认知对齐为可靠和安全的精神病学决策支持提供了一条可扩展的途径。

🔬 方法详解

问题定义:现有的大型语言模型在精神病学临床推理中存在不足,尤其是在轻量级模型上,它们更容易产生幻觉和肤浅的推理。现有的训练方法更注重语言的流畅性,而忽略了结构化的临床逻辑,导致模型与专业精神病学家的诊断认知不一致。

核心思路:ClinMPO的核心思路是利用强化学习,通过一个基于医学证据训练的奖励模型,来引导轻量级LLM学习专业的精神病学推理过程。通过这种方式,模型可以更好地理解和应用临床知识,从而提高诊断的准确性和可靠性。

技术框架:ClinMPO框架包含以下几个主要模块:1) 数据集构建:从大量的精神病学期刊文章中提取数据,并根据循证医学原则进行结构化。2) 奖励模型训练:使用构建的数据集训练一个奖励模型,该模型能够评估LLM生成的诊断结果的质量。3) 强化学习训练:使用奖励模型作为反馈信号,通过强化学习算法(如MPO)来调整LLM的参数,使其更好地执行临床推理任务。

关键创新:ClinMPO的关键创新在于将医学证据与强化学习相结合,用于指导LLM进行临床推理。传统的LLM训练方法主要依赖于大量的文本数据,而忽略了医学领域的专业知识。ClinMPO通过奖励模型将医学证据融入到训练过程中,从而使LLM能够更好地理解和应用临床知识。

关键设计:奖励模型的设计至关重要,它需要能够准确地评估LLM生成的诊断结果的质量。论文中使用了从精神病学期刊文章中提取的数据,并根据循证医学原则进行结构化,以确保奖励模型的可靠性。此外,强化学习算法的选择也很重要,论文中使用了MPO算法,该算法具有较好的稳定性和收敛性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ClinMPO框架在复杂精神病学案例的诊断准确率上超越了人类医学生的基准(31.4% vs 30.8%),证明了医学证据引导的优化能够显著提升轻量级LLM的推理能力。该结果是在一个专门设计的、用于评估推理能力的测试集上取得的,该测试集包含领先的大参数LLM始终失败的案例。

🎯 应用场景

该研究成果可应用于开发辅助精神科医生进行诊断和治疗决策的智能系统。通过将轻量级LLM与证据引导的强化学习相结合,可以构建出能够在保护患者隐私的前提下,提供可靠和安全的临床决策支持工具,从而提高精神病学服务的效率和质量。未来,该方法还可以扩展到其他医学领域。

📄 摘要(原文)

Large language models (LLMs) hold transformative potential for medical decision support yet their application in psychiatry remains constrained by hallucinations and superficial reasoning. This limitation is particularly acute in light-parameter LLMs which are essential for privacy-preserving and efficient clinical deployment. Existing training paradigms prioritize linguistic fluency over structured clinical logic and result in a fundamental misalignment with professional diagnostic cognition. Here we introduce ClinMPO, a reinforcement learning framework designed to align the internal reasoning of LLMs with professional psychiatric practice. The framework employs a specialized reward model trained independently on a dataset derived from 4,474 psychiatry journal articles and structured according to evidence-based medicine principles. We evaluated ClinMPO on a unseen subset of the benchmark designed to isolate reasoning capabilities from rote memorization. This test set comprises items where leading large-parameter LLMs consistently fail. We compared the ClinMPO-aligned light LLM performance against a cohort of 300 medical students. The ClinMPO-tuned Qwen3-8B model achieved a diagnostic accuracy of 31.4% and surpassed the human benchmark of 30.8% on these complex cases. These results demonstrate that medical evidence-guided optimization enables light-parameter LLMs to master complex reasoning tasks. Our findings suggest that explicit cognitive alignment offers a scalable pathway to reliable and safe psychiatric decision support.