Hengqin-RA-v1: Advanced Large Language Model for Diagnosis and Treatment of Rheumatoid Arthritis with Dataset based Traditional Chinese Medicine

📄 arXiv: 2501.02471v2 📥 PDF

作者: Yishen Liu, Shengda Luo, Zishao Zhong, Tongtong Wu, Jianguo Zhang, Peiyao Ou, Yong Liang, Liang Liu, Hudan Pan

分类: cs.CL, cs.AI

发布日期: 2025-01-05 (更新: 2025-03-27)

备注: 8 pages, 5 figures, AAAI-2025 Workshop


💡 一句话要点

Hengqin-RA-v1:首个针对中医风湿性关节炎诊疗的大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中医 风湿性关节炎 大语言模型 数据集 辅助诊断

📋 核心要点

  1. 通用大语言模型在中医领域面临数据匮乏和文化差异带来的挑战,导致诊断和治疗准确性不足。
  2. Hengqin-RA-v1通过构建中医风湿性关节炎数据集,并在此基础上训练大语言模型,提升专业领域的性能。
  3. 实验结果表明,Hengqin-RA-v1在风湿性关节炎的诊断方面超越了现有模型,甚至在某些情况下优于中医从业者。

📝 摘要(中文)

本文介绍Hengqin-RA-v1,这是首个专门为中医(TCM)量身定制的大语言模型,专注于风湿性关节炎(RA)的诊断和治疗。通用大语言模型主要基于英文文本训练,在中文语境下存在偏差和不准确性,尤其是在中医等领域,文化和临床的细微差别至关重要,而领域特定数据的缺乏进一步阻碍了其应用。为了解决这些问题,我们还提出了HQ-GCM-RA-C1,这是一个全面的RA特定数据集,来源于古代中医文献、经典文本和现代临床研究。该数据集使Hengqin-RA-v1能够提供准确且符合文化背景的响应,有效弥合通用模型留下的差距。大量实验表明,Hengqin-RA-v1优于最先进的模型,甚至在某些情况下超过了中医从业者的诊断准确性。

🔬 方法详解

问题定义:现有的大语言模型主要基于英文数据训练,缺乏对中医领域知识的理解,尤其是在风湿性关节炎(RA)的诊断和治疗方面,存在准确性和文化适应性问题。通用模型无法有效处理中医古籍和临床数据,导致无法提供可靠的诊疗建议。现有方法缺乏针对中医RA的专业数据集,阻碍了领域特定模型的开发。

核心思路:本文的核心思路是构建一个高质量的中医风湿性关节炎数据集(HQ-GCM-RA-C1),并在此数据集上训练一个专门的大语言模型(Hengqin-RA-v1)。通过领域特定的数据训练,使模型能够更好地理解中医理论和临床实践,从而提高诊断和治疗的准确性。这种方法旨在弥合通用模型与中医专业知识之间的差距。

技术框架:Hengqin-RA-v1的技术框架主要包括两个部分:一是HQ-GCM-RA-C1数据集的构建,二是基于该数据集对大语言模型进行训练和微调。数据集的构建涉及从古代中医文献、经典文本和现代临床研究中提取相关信息,并进行清洗和标注。模型训练采用标准的Transformer架构,并针对中医RA的特点进行优化。

关键创新:该论文的关键创新在于构建了首个针对中医风湿性关节炎的大规模数据集HQ-GCM-RA-C1,并在此基础上训练了专门的大语言模型Hengqin-RA-v1。与通用大语言模型相比,Hengqin-RA-v1能够更好地理解中医理论和临床实践,从而提供更准确和可靠的诊疗建议。这种领域特定模型的构建方法为解决其他中医领域的类似问题提供了借鉴。

关键设计:HQ-GCM-RA-C1数据集包含多种类型的数据,包括病历、处方、症状描述等。在模型训练过程中,使用了交叉熵损失函数来优化模型的预测能力。具体的网络结构和超参数设置未知,但可以推测使用了预训练语言模型作为基础,并在此基础上进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Hengqin-RA-v1在风湿性关节炎的诊断任务中表现出色,超越了现有最先进的模型,并在某些情况下达到了甚至超过了中医从业者的诊断水平。具体性能数据未知,但摘要强调了其显著的性能提升和对中医专业知识的有效理解。

🎯 应用场景

Hengqin-RA-v1可应用于中医风湿性关节炎的辅助诊断、治疗方案推荐、患者教育和中医知识普及。该模型能够帮助医生提高诊断效率和准确性,为患者提供个性化的治疗建议,并促进中医知识的传承和发展。未来,该模型可以扩展到其他中医疾病领域,构建更全面的中医智能诊疗系统。

📄 摘要(原文)

Large language models (LLMs) primarily trained on English texts, often face biases and inaccuracies in Chinese contexts. Their limitations are pronounced in fields like Traditional Chinese Medicine (TCM), where cultural and clinical subtleties are vital, further hindered by a lack of domain-specific data, such as rheumatoid arthritis (RA). To address these issues, this paper introduces Hengqin-RA-v1, the first large language model specifically tailored for TCM with a focus on diagnosing and treating RA. We also present HQ-GCM-RA-C1, a comprehensive RA-specific dataset curated from ancient Chinese medical literature, classical texts, and modern clinical studies. This dataset empowers Hengqin-RA-v1 to deliver accurate and culturally informed responses, effectively bridging the gaps left by general-purpose models. Extensive experiments demonstrate that Hengqin-RA-v1 outperforms state-of-the-art models, even surpassing the diagnostic accuracy of TCM practitioners in certain cases.