A benchmark dataset for evaluating Syndrome Differentiation and Treatment in large language models

作者: Kunning Li, Jianbin Guo, Zhaoyang Shang, Yiqing Liu, Hongmin Du, Lingling Liu, Yuping Zhao, Lifeng Dong

分类: cs.CL

发布日期: 2025-12-02

💡 一句话要点

构建中医领域大型语言模型评测基准TCM-BEST4SDT，用于评估辨证论治能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 中医 大型语言模型 评测基准 辨证论治 临床决策 奖励模型 智能辅助诊疗

📋 核心要点

现有中医LLM评测基准侧重知识问答和辨证，忽略了对治疗决策能力的评估，无法全面反映临床应用能力。
构建临床案例为基础的综合性评测基准TCM-BEST4SDT，并设计奖励模型来评估处方与证候的匹配程度。
在15个LLM上的实验验证了TCM-BEST4SDT的有效性，为中医LLM的评估和发展提供了有力工具。

📝 摘要（中文）

本文提出一个全面的、基于临床案例的中医领域大型语言模型（LLMs）评测基准TCM-BEST4SDT，旨在评估其临床应用能力，特别是“辨证论治”（SDT）能力。现有基准主要集中于知识问答或辨证准确性，忽略了治疗决策评估。该基准由中医专家主导，采用专门的奖励模型量化处方-证候的一致性，数据标注遵循严格流程。TCM-BEST4SDT包含四个任务：中医基础知识、医学伦理、LLM内容安全和SDT。评估框架整合了选择题评估、判别模型评估和奖励模型评估三种机制。在15个主流LLMs（包括通用和中医领域）上的实验验证了TCM-BEST4SDT的有效性。该基准现已公开，以促进智能中医研究的发展。

🔬 方法详解

问题定义：现有中医领域的大型语言模型（LLMs）评估主要集中在知识问答和辨证的准确性上，缺乏对治疗决策能力的全面评估。这使得我们难以准确衡量LLMs在中医临床实践中的应用潜力。现有方法无法有效评估LLMs在复杂、个体化的中医“辨证论治”（SDT）过程中的表现。

核心思路：本文的核心思路是构建一个更贴近临床实际的评测基准，即TCM-BEST4SDT，它基于真实的临床案例，并引入奖励模型来量化LLMs给出的处方与患者证候的匹配程度。通过这种方式，可以更全面、客观地评估LLMs在中医临床决策中的能力。

技术框架：TCM-BEST4SDT包含四个任务：中医基础知识、医学伦理、LLM内容安全和SDT。数据标注由中医专家团队完成，遵循严格的流程，确保数据的质量和可靠性。评估框架包含三种机制：选择题评估（针对客观题）、判别模型评估（使用预训练模型判断答案质量）和奖励模型评估（量化处方与证候的匹配度）。

关键创新：该论文的关键创新在于构建了一个综合性的、基于临床案例的评测基准，并引入了奖励模型来评估处方-证候的一致性。这弥补了现有基准的不足，使其能够更全面地评估LLMs在中医临床决策中的能力。奖励模型的设计是关键，它需要能够准确反映中医辨证论治的原则。

关键设计：奖励模型的设计是关键。具体细节未知，但可以推测其输入是LLM生成的处方和患者的证候信息，输出是一个表示匹配程度的数值。该模型可能基于中医理论知识库和专家经验进行训练，以确保其评估的准确性和可靠性。此外，数据标注流程的严谨性也是关键设计之一，确保了基准数据的质量。

📊 实验亮点

该研究构建的TCM-BEST4SDT基准，在15个主流LLM上进行了测试，结果表明该基准能够有效区分不同LLM在中医辨证论治方面的能力差异。具体的性能数据和提升幅度未知，但实验结果证实了该基准的有效性，为后续研究提供了可靠的评估工具。

🎯 应用场景

该研究成果可应用于中医智能辅助诊疗系统的开发，帮助医生提高诊断和治疗的效率和准确性。此外，该基准可以促进中医LLM的研究和发展，推动中医知识的传承和创新。未来，该基准可以扩展到更多中医临床场景，并与其他医学领域的LLM进行比较，从而更好地评估和利用人工智能技术服务于人类健康。

📄 摘要（原文）

The emergence of Large Language Models (LLMs) within the Traditional Chinese Medicine (TCM) domain presents an urgent need to assess their clinical application capabilities. However, such evaluations are challenged by the individualized, holistic, and diverse nature of TCM's "Syndrome Differentiation and Treatment" (SDT). Existing benchmarks are confined to knowledge-based question-answering or the accuracy of syndrome differentiation, often neglecting assessment of treatment decision-making. Here, we propose a comprehensive, clinical case-based benchmark spearheaded by TCM experts, and a specialized reward model employed to quantify prescription-syndrome congruence. Data annotation follows a rigorous pipeline. This benchmark, designated TCM-BEST4SDT, encompasses four tasks, including TCM Basic Knowledge, Medical Ethics, LLM Content Safety, and SDT. The evaluation framework integrates three mechanisms, namely selected-response evaluation, judge model evaluation, and reward model evaluation. The effectiveness of TCM-BEST4SDT was corroborated through experiments on 15 mainstream LLMs, spanning both general and TCM domains. To foster the development of intelligent TCM research, TCM-BEST4SDT is now publicly available.

A benchmark dataset for evaluating Syndrome Differentiation and Treatment in large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理