TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine
作者: Tianai Huang, Lu Lu, Jiayuan Chen, Lihao Liu, Junjun He, Yuping Zhao, Wenchao Tang, Jie Xu
分类: cs.CL
发布日期: 2025-03-10
💡 一句话要点
TCM-3CEval:构建中医大语言模型三轴评估基准,弥合临床需求差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 传统中医 大语言模型 评估基准 临床决策 古籍理解
📋 核心要点
- 现有大语言模型在中医领域的评估不足,无法准确衡量其在中医知识、文本理解和临床应用能力。
- 构建TCM-3CEval三轴评估基准,从核心知识、古籍理解和临床决策三个维度全面评估大语言模型。
- 实验结果揭示了现有模型在中医专业子领域的局限性,并验证了中文先验知识对模型性能的提升作用。
📝 摘要(中文)
大型语言模型(LLMs)在各种自然语言处理任务和现代医学领域表现出色,但在传统中医(TCM)领域的评估仍未充分探索。为了解决这个问题,我们推出了TCM-3CEval,一个评估LLMs在中医领域表现的基准,它包含三个维度:核心知识掌握、古籍文本理解和临床决策。我们评估了各种模型,包括国际模型(如GPT-4o)、中文模型(如InternLM)和医学专用模型(如PLUSE)。结果显示了性能层级:所有模型在经络腧穴理论和各家中医学说等专业子领域都存在局限性,揭示了当前能力与临床需求之间的差距。具有中文语言和文化先验知识的模型在古籍文本解读和临床推理方面表现更好。TCM-3CEval为中医领域的人工智能评估设定了标准,为优化在具有文化基础的医学领域中的LLMs提供了见解。该基准可在Medbench的TCM赛道上使用,旨在通过多维问题和真实案例评估LLMs在基础知识、经典文本和临床决策方面的中医能力。
🔬 方法详解
问题定义:现有的大语言模型在通用领域和现代医学领域取得了显著进展,但在传统中医(TCM)领域的应用评估不足。缺乏一个专门针对中医知识、古籍理解和临床决策能力进行全面评估的基准,导致无法准确衡量和优化模型在中医领域的性能。现有方法难以区分模型是真正理解了中医知识,还是仅仅依赖于表面模式匹配。
核心思路:TCM-3CEval的核心思路是构建一个多维度的评估体系,从核心知识掌握、古籍文本理解和临床决策三个方面全面评估大语言模型。通过设计不同类型的题目和案例,考察模型对中医基础理论、经典文献和实际临床问题的理解和应用能力。这种多维度评估能够更准确地反映模型在中医领域的真实水平,并为模型优化提供更具体的指导。
技术框架:TCM-3CEval包含三个主要模块:核心知识评估模块、古籍文本理解模块和临床决策评估模块。核心知识评估模块主要考察模型对中医基本概念、理论和方法的掌握程度。古籍文本理解模块主要考察模型对中医经典文献的解读和理解能力。临床决策评估模块主要考察模型在实际临床场景中的推理和决策能力。每个模块都包含多种类型的题目和案例,以全面评估模型的不同方面能力。
关键创新:TCM-3CEval的关键创新在于其三轴评估体系,它不仅关注模型对中医知识的记忆,更关注模型对中医理论的理解和应用能力。此外,TCM-3CEval还特别关注模型对中文古籍的理解能力,这对于在中医领域应用大语言模型至关重要。与现有方法相比,TCM-3CEval能够更全面、更准确地评估大语言模型在中医领域的性能。
关键设计:TCM-3CEval的关键设计包括题目的选择、案例的设计和评估指标的确定。题目和案例的选择需要覆盖中医领域的核心知识、经典文献和常见临床问题。评估指标需要能够准确反映模型在不同方面的能力。例如,在核心知识评估模块,可以使用准确率、召回率和F1值等指标。在古籍文本理解模块,可以使用BLEU、ROUGE等指标。在临床决策评估模块,可以使用诊断准确率、治疗有效率等指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同模型在TCM-3CEval上的表现存在显著差异。具有中文语言和文化先验知识的模型在古籍文本解读和临床推理方面表现更好。所有模型在经络腧穴理论和各家中医学说等专业子领域都存在局限性,表明现有模型在中医领域的知识掌握和应用能力仍有待提高。GPT-4o等国际模型在某些方面表现出色,但仍无法完全满足中医临床需求。
🎯 应用场景
TCM-3CEval可用于评估和优化大语言模型在中医辅助诊断、治疗方案推荐、中医知识普及等领域的应用。通过该基准,可以筛选出更适合中医领域的模型,并指导模型进行针对性训练,提高其在中医领域的专业能力。此外,TCM-3CEval还可以促进中医知识的数字化和智能化,为中医的传承和发展做出贡献。
📄 摘要(原文)
Large language models (LLMs) excel in various NLP tasks and modern medicine, but their evaluation in traditional Chinese medicine (TCM) is underexplored. To address this, we introduce TCM3CEval, a benchmark assessing LLMs in TCM across three dimensions: core knowledge mastery, classical text understanding, and clinical decision-making. We evaluate diverse models, including international (e.g., GPT-4o), Chinese (e.g., InternLM), and medical-specific (e.g., PLUSE). Results show a performance hierarchy: all models have limitations in specialized subdomains like Meridian & Acupoint theory and Various TCM Schools, revealing gaps between current capabilities and clinical needs. Models with Chinese linguistic and cultural priors perform better in classical text interpretation and clinical reasoning. TCM-3CEval sets a standard for AI evaluation in TCM, offering insights for optimizing LLMs in culturally grounded medical domains. The benchmark is available on Medbench's TCM track, aiming to assess LLMs' TCM capabilities in basic knowledge, classic texts, and clinical decision-making through multidimensional questions and real cases.