Do "New Snow Tablets" Contain Snow? Large Language Models Over-Rely on Names to Identify Ingredients of Chinese Drugs
作者: Sifan Li, Yujun Cai, Bryan Hooi, Nanyun Peng, Yiwei Wang
分类: cs.CL
发布日期: 2025-04-03 (更新: 2025-04-15)
💡 一句话要点
揭示LLM在中药成分识别中过度依赖名称的缺陷,并提出RAG方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中药成分识别 大型语言模型 检索增强生成 药理知识 临床应用
📋 核心要点
- 现有LLM在中药成分识别中表现出对药名过度依赖,缺乏真正的药理知识,导致识别错误。
- 论文提出一种基于成分名称的检索增强生成(RAG)方法,以提升LLM在中药成分识别方面的准确性。
- 实验结果表明,该RAG方法在220种中药配方上的成分验证准确率从50%提升至82%。
📝 摘要(中文)
传统中医药在医疗保健领域日益普及,涌现出许多专门的大型语言模型(LLM)来支持临床应用。这些模型的一个基本要求是准确识别中药成分。本文评估了通用和中医药专用LLM在识别中药成分时的表现。系统分析揭示了一致的失败模式:模型经常按字面意思解释药物名称,过度使用常见草药而不考虑相关性,并且在面对不熟悉的配方时表现出不稳定的行为。LLM也未能理解验证任务。这些发现表明,当前的LLM主要依赖于药物名称,而不是拥有系统的药理学知识。为了解决这些局限性,我们提出了一种侧重于成分名称的检索增强生成(RAG)方法。在220种中药配方上的实验表明,我们的方法在成分验证任务中将准确率从大约50%显著提高到82%。我们的工作突出了当前中医药专用LLM的关键弱点,并为提高其临床可靠性提供了一个实用的解决方案。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在中药成分识别任务中表现不佳,主要原因是它们过度依赖药物名称的字面意义,而缺乏对中药药理知识的深入理解。这导致模型在识别成分时出现偏差,例如过度使用常见草药或无法处理不熟悉的配方。现有方法的痛点在于无法有效利用药理知识,导致识别结果不准确。
核心思路:论文的核心思路是利用检索增强生成(RAG)方法,通过检索与成分名称相关的知识来增强LLM的识别能力。这种方法旨在减少模型对药物名称的过度依赖,并引入更可靠的药理信息。通过检索相关信息,模型可以更好地理解成分的性质和用途,从而提高识别的准确性。
技术框架:该方法的技术框架主要包括两个阶段:检索阶段和生成阶段。在检索阶段,模型首先接收中药配方的名称作为输入,然后利用该名称在外部知识库中检索相关的成分信息。检索到的信息包括成分的名称、性质、功效等。在生成阶段,模型将检索到的信息与原始输入相结合,生成对中药配方成分的预测。整个流程旨在利用外部知识来指导LLM的生成过程,从而提高识别的准确性。
关键创新:该方法最重要的技术创新点在于将检索增强生成(RAG)方法应用于中药成分识别任务。与传统的LLM方法相比,该方法能够有效利用外部知识,减少对药物名称的过度依赖。此外,该方法还侧重于成分名称的检索,从而能够更准确地获取与成分相关的信息。
关键设计:在检索阶段,论文可能使用了特定的检索算法(例如,基于向量相似度的检索)来从知识库中检索相关信息。在生成阶段,论文可能使用了特定的语言模型(例如,Transformer模型)来生成对中药配方成分的预测。具体的参数设置、损失函数和网络结构等技术细节未知,需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的检索增强生成(RAG)方法在220种中药配方上的成分验证准确率从大约50%显著提高到82%。这一结果表明,该方法能够有效提高LLM在中药成分识别方面的准确性,并具有重要的临床应用价值。
🎯 应用场景
该研究成果可应用于开发更可靠的中医药辅助诊断系统,帮助医生准确识别中药成分,提高处方准确性,并促进中医药的现代化和国际化。此外,该方法也可推广到其他需要专业知识的领域,例如化学成分识别、食品成分分析等。
📄 摘要(原文)
Traditional Chinese Medicine (TCM) has seen increasing adoption in healthcare, with specialized Large Language Models (LLMs) emerging to support clinical applications. A fundamental requirement for these models is accurate identification of TCM drug ingredients. In this paper, we evaluate how general and TCM-specialized LLMs perform when identifying ingredients of Chinese drugs. Our systematic analysis reveals consistent failure patterns: models often interpret drug names literally, overuse common herbs regardless of relevance, and exhibit erratic behaviors when faced with unfamiliar formulations. LLMs also fail to understand the verification task. These findings demonstrate that current LLMs rely primarily on drug names rather than possessing systematic pharmacological knowledge. To address these limitations, we propose a Retrieval Augmented Generation (RAG) approach focused on ingredient names. Experiments across 220 TCM formulations show our method significantly improves accuracy from approximately 50% to 82% in ingredient verification tasks. Our work highlights critical weaknesses in current TCM-specific LLMs and offers a practical solution for enhancing their clinical reliability.