TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine

作者: Jiacheng Xie, Yang Yu, Ziyang Zhang, Shuai Zeng, Jiaxuan He, Ayush Vasireddy, Xiaoting Tang, Congyu Guo, Lening Zhao, Congcong Jing, Guanghui An, Dong Xu

分类: cs.CL, cs.DB

发布日期: 2025-05-29 (更新: 2025-10-24)

💡 一句话要点

提出TCM-Ladder，一个用于评估中医多模态问答的大规模基准数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 中医 多模态问答 大型语言模型 基准数据集 评估方法 人工智能 自然语言处理

📋 核心要点

现有中医LLM评估数据集范围有限，主要基于文本，缺乏统一的多模态问答基准，无法全面评估模型性能。
构建了包含文本、图像和视频的多模态中医问答数据集TCM-Ladder，覆盖中医多个核心学科，包含多种题型。
提出了Ladder-Score评估方法，能有效评估中医问答中术语使用和语义表达的答案质量，并进行了模型对比实验。

📝 摘要（中文）

传统中医药（TCM）作为一种有效的替代医学，正受到越来越多的关注。近年来，专为中医定制的大型语言模型（LLM）的快速发展，凸显了对客观、全面的评估框架的迫切需求，以评估其在实际任务中的表现。然而，现有的评估数据集范围有限，并且主要基于文本，缺乏统一和标准化的多模态问答（QA）基准。为了解决这个问题，我们推出了TCM-Ladder，这是第一个专门为评估大型中医语言模型而设计的综合性多模态QA数据集。该数据集涵盖了中医的多个核心学科，包括基础理论、诊断学、方剂学、内科学、外科学、本草学和儿科学。除了文本内容外，TCM-Ladder还整合了图像和视频等多种模态。该数据集通过自动化和手动过滤相结合的方式构建，包含超过52,000个问题。这些问题包括单选题、多选题、填空题、诊断对话和视觉理解任务。我们在TCM-Ladder上训练了一个推理模型，并与九个最先进的通用领域LLM和五个领先的中医专用LLM进行了比较实验，以评估它们在该数据集上的表现。此外，我们提出了Ladder-Score，一种专门为中医问答设计的评估方法，可以有效地评估术语使用和语义表达方面的答案质量。据我们所知，这是第一个在统一的多模态基准上系统地评估主流通用领域和中医专用LLM的工作。数据集和排行榜可在https://tcmladder.com公开获取，并将持续更新。

🔬 方法详解

问题定义：现有中医大型语言模型缺乏一个统一、标准化的多模态问答基准进行客观评估。现有数据集主要集中于文本，忽略了中医实践中图像和视频的重要性，无法全面评估模型对多模态信息的理解和推理能力。这阻碍了中医LLM的进一步发展和应用。

核心思路：构建一个包含多种模态（文本、图像、视频）和多种题型（单选、多选、填空、对话、视觉理解）的综合性中医问答数据集，以全面评估LLM对中医知识的掌握和多模态信息的处理能力。同时，设计一种专门针对中医问答的评估指标，以更准确地衡量答案的质量。

技术框架：TCM-Ladder数据集的构建流程包括：1) 数据收集：从各种中医资源（书籍、论文、网站等）收集文本、图像和视频数据。2) 问题生成：基于收集到的数据，自动生成候选问题，并进行人工校对和修改。3) 数据过滤：采用自动化和人工相结合的方式，过滤掉质量差的问题。4) 数据标注：对问题进行标注，包括答案、题型、所属学科等。Ladder-Score评估方法则侧重于评估答案的中医术语使用和语义表达的准确性。

关键创新：TCM-Ladder是首个专门为评估中医LLM而设计的综合性多模态问答数据集。它不仅包含多种模态的数据，还涵盖了中医的多个核心学科，并设计了多种题型，能够全面评估LLM的性能。Ladder-Score评估方法则针对中医问答的特殊性，能够更准确地衡量答案的质量。

关键设计：数据集中包含超过52,000个问题，涵盖中医基础理论、诊断学、方剂学、内科学、外科学、本草学和儿科学等多个学科。问题类型包括单选题、多选题、填空题、诊断对话和视觉理解任务。Ladder-Score评估方法的具体实现细节未知，但强调了对中医术语使用和语义表达的评估。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有通用领域和中医专用LLM在TCM-Ladder数据集上的表现仍有提升空间。通过在TCM-Ladder上训练推理模型，并与九个通用领域LLM和五个中医专用LLM进行对比，验证了TCM-Ladder的有效性和挑战性。Ladder-Score评估方法能够有效区分不同模型的答案质量。

🎯 应用场景

该研究成果可应用于中医LLM的评估和改进，促进中医人工智能的发展。TCM-Ladder数据集可作为训练和评估中医LLM的基准，推动模型性能提升。Ladder-Score评估方法可用于更准确地评估中医问答系统的质量。未来，该研究有望促进中医知识的普及和应用，提高中医诊疗水平。

📄 摘要（原文）

Traditional Chinese Medicine (TCM), as an effective alternative medicine, has been receiving increasing attention. In recent years, the rapid development of large language models (LLMs) tailored for TCM has highlighted the urgent need for an objective and comprehensive evaluation framework to assess their performance on real-world tasks. However, existing evaluation datasets are limited in scope and primarily text-based, lacking a unified and standardized multimodal question-answering (QA) benchmark. To address this issue, we introduce TCM-Ladder, the first comprehensive multimodal QA dataset specifically designed for evaluating large TCM language models. The dataset covers multiple core disciplines of TCM, including fundamental theory, diagnostics, herbal formulas, internal medicine, surgery, pharmacognosy, and pediatrics. In addition to textual content, TCM-Ladder incorporates various modalities such as images and videos. The dataset was constructed using a combination of automated and manual filtering processes and comprises over 52,000 questions. These questions include single-choice, multiple-choice, fill-in-the-blank, diagnostic dialogue, and visual comprehension tasks. We trained a reasoning model on TCM-Ladder and conducted comparative experiments against nine state-of-the-art general domain and five leading TCM-specific LLMs to evaluate their performance on the dataset. Moreover, we propose Ladder-Score, an evaluation method specifically designed for TCM question answering that effectively assesses answer quality in terms of terminology usage and semantic expression. To the best of our knowledge, this is the first work to systematically evaluate mainstream general domain and TCM-specific LLMs on a unified multimodal benchmark. The datasets and leaderboard are publicly available at https://tcmladder.com and will be continuously updated.

TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理