Leveraging Group Relative Policy Optimization to Advance Large Language Models in Traditional Chinese Medicine

📄 arXiv: 2510.17402v1 📥 PDF

作者: Jiacheng Xie, Shuai Zeng, Yang Yu, Xiaoting Tang, Guanghui An, Dong Xu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-10-20


💡 一句话要点

提出基于群体相对策略优化的Ladder-base,提升大语言模型在中医领域的推理和事实一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中医大语言模型 群体相对策略优化 强化学习 推理能力 事实一致性

📋 核心要点

  1. 现有中医大语言模型在对齐、数据质量和评估一致性方面存在不足,限制了其应用。
  2. 采用群体相对策略优化(GRPO)方法,通过组内比较优化响应选择,提升推理和事实一致性。
  3. Ladder-base在多个推理指标上优于通用和中医领域特定的大语言模型,验证了GRPO的有效性。

📝 摘要(中文)

传统中医(TCM)呈现出丰富且结构独特的知识体系,对大型语言模型(LLM)的传统应用提出了挑战。虽然之前的中医专用LLM通过监督微调取得了一些进展,但它们在对齐、数据质量和评估一致性方面常常面临限制。本研究引入了Ladder-base,这是首个采用群体相对策略优化(GRPO)训练的、专注于中医的LLM。GRPO是一种强化学习方法,通过优化基于组内比较的响应选择来提高推理能力和事实一致性。Ladder-base构建于Qwen2.5-7B-Instruct基础模型之上,并专门使用TCM-Ladder基准的文本子集进行训练,其中80%的数据用于训练,剩余20%的数据平均分配给验证集和测试集。通过标准化评估,与GPT-4、Gemini 2.5、Claude 3和Qwen3等最先进的通用LLM以及BenTsao、HuatuoGPT2和Zhongjing等领域特定的中医模型相比,Ladder-base在多个推理指标上表现出卓越的性能。这些发现表明,GRPO为使LLM与传统医学领域的专家级推理对齐提供了一种有效且高效的策略,并支持开发可信赖且具有临床基础的中医人工智能系统。

🔬 方法详解

问题定义:论文旨在解决现有中医大语言模型在推理能力和事实一致性方面的不足。现有方法,如监督微调,难以保证模型输出与中医知识体系的精确对齐,且易受数据质量和评估标准不一致的影响。

核心思路:论文的核心思路是利用群体相对策略优化(GRPO)方法,通过强化学习的方式,让模型学习在多个候选答案中选择最优解。GRPO通过比较同一组内的不同答案,鼓励模型选择更符合中医知识体系的答案,从而提高推理能力和事实一致性。这种方法避免了直接标注最优答案的困难,而是通过相对比较来引导模型学习。

技术框架:Ladder-base的训练框架主要包括以下几个阶段:1) 基于Qwen2.5-7B-Instruct构建基础模型;2) 使用TCM-Ladder基准数据集的文本子集进行训练,数据集分为训练集、验证集和测试集;3) 采用GRPO算法进行强化学习,优化模型的策略;4) 通过标准化评估指标,验证模型的性能。

关键创新:论文的关键创新在于将GRPO方法应用于中医大语言模型的训练。与传统的监督微调方法相比,GRPO能够更好地利用未标注数据中的信息,通过相对比较来学习中医知识。此外,Ladder-base是首个采用GRPO训练的、专注于中医的LLM。

关键设计:GRPO算法的关键设计在于如何定义“群体”以及如何进行“相对比较”。论文中,“群体”指的是针对同一问题的多个候选答案。 “相对比较”则是通过奖励函数来实现的,奖励函数会根据候选答案之间的差异,给予模型不同的奖励,鼓励模型选择更符合中医知识体系的答案。具体的奖励函数设计细节未知。

📊 实验亮点

Ladder-base在多个推理指标上超越了包括GPT-4、Gemini 2.5、Claude 3和Qwen3等通用大语言模型,以及BenTsao、HuatuoGPT2和Zhongjing等中医领域特定模型。这些结果表明,GRPO方法能够显著提升大语言模型在中医领域的推理能力和事实一致性。

🎯 应用场景

该研究成果可应用于智能中医辅助诊疗、中医知识库构建、中医教育等领域。Ladder-base的成功表明,GRPO方法能够有效提升大语言模型在专业医学领域的应用能力,有助于构建更值得信赖和临床实用的中医人工智能系统,为中医的传承和发展提供技术支持。

📄 摘要(原文)

Traditional Chinese Medicine (TCM) presents a rich and structurally unique knowledge system that challenges conventional applications of large language models (LLMs). Although previous TCM-specific LLMs have shown progress through supervised fine-tuning, they often face limitations in alignment, data quality, and evaluation consistency. In this study, we introduce Ladder-base, the first TCM-focused LLM trained with Group Relative Policy Optimization (GRPO), a reinforcement learning method that improves reasoning and factual consistency by optimizing response selection based on intra-group comparisons. Ladder-base is built upon the Qwen2.5-7B-Instruct foundation model and trained exclusively on the textual subset of the TCM-Ladder benchmark, using 80 percent of the data for training and the remaining 20 percent split evenly between validation and test sets. Through standardized evaluation, Ladder-base demonstrates superior performance across multiple reasoning metrics when compared to both state-of-the-art general-purpose LLMs such as GPT-4, Gemini 2.5, Claude 3, and Qwen3 and domain-specific TCM models including BenTsao, HuatuoGPT2, and Zhongjing. These findings suggest that GRPO provides an effective and efficient strategy for aligning LLMs with expert-level reasoning in traditional medical domains and supports the development of trustworthy and clinically grounded TCM artificial intelligence systems.