MKG-Rank: Enhancing Large Language Models with Knowledge Graph for Multilingual Medical Question Answering

📄 arXiv: 2503.16131v2 📥 PDF

作者: Feiyang Li, Yingjian Chen, Haoran Liu, Rui Yang, Han Yuan, Yuang Jiang, Tianxiao Li, Edison Marrese Taylor, Hossein Rouhizadeh, Yusuke Iwasawa, Douglas Teodoro, Yutaka Matsuo, Irene Li

分类: cs.CL

发布日期: 2025-03-20 (更新: 2025-03-21)


💡 一句话要点

MKG-Rank:利用知识图谱增强大语言模型,实现多语言医学问答

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言医学问答 知识图谱 大型语言模型 跨语言知识迁移 信息检索

📋 核心要点

  1. 现有医学问答LLM在非英语语种上表现不佳,原因是多语言训练数据不平衡和低资源语言医学资源匮乏。
  2. MKG-Rank通过词级翻译将英语医学知识图谱融入LLM推理,降低跨语言语义失真,实现多语言医学问答。
  3. 实验表明,MKG-Rank在多种语言的医学问答任务中显著优于零样本LLM,准确率提升高达35.03%。

📝 摘要(中文)

大型语言模型(LLMs)在医学问答(QA)方面取得了显著进展,但由于多语言训练数据不平衡以及低资源语言的医学资源稀缺,其有效性主要限于英语。为了解决医学QA中这一关键的语言差距,我们提出了多语言知识图谱检索排序(MKG-Rank),这是一个基于知识图谱增强的框架,使以英语为中心的大型语言模型能够执行多语言医学QA。通过词级翻译机制,我们的框架以低成本有效地将全面的以英语为中心的医学知识图谱集成到LLM推理中,减轻了跨语言语义失真,并实现了跨语言障碍的精确医学QA。为了提高效率,我们引入了缓存和多角度排序策略来优化检索过程,显著减少了响应时间并优先考虑相关的医学知识。在中文、日语、韩语和斯瓦希里语的多语言医学QA基准上的广泛评估表明,MKG-Rank始终优于零样本LLM,准确率最高提高了35.03%,同时保持了平均0.0009秒的检索时间。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多语言医学问答任务中的局限性。现有方法,特别是零样本LLM,在非英语语种上的表现不佳,主要原因是缺乏充分的多语言训练数据和特定语言的医学知识资源。这导致跨语言的语义理解和推理能力下降,影响了问答的准确性。

核心思路:论文的核心思路是利用现有的、高质量的英语医学知识图谱,通过词级别的翻译机制,将其有效地融入到LLM的推理过程中。这种方法避免了直接训练多语言LLM的巨大成本和数据需求,而是通过桥接语言的方式,使LLM能够利用英语知识图谱进行跨语言的医学问答。

技术框架:MKG-Rank框架主要包含以下几个阶段:1) 问题输入:接收用户提出的多语言医学问题。2) 词级翻译:将问题中的关键词翻译成英文,以便在英语医学知识图谱中进行检索。3) 知识图谱检索:利用翻译后的关键词,在知识图谱中检索相关的医学实体和关系。4) 多角度排序:对检索到的知识进行多角度排序,以确定最相关的医学知识。5) LLM推理:将排序后的知识输入到LLM中,进行推理并生成答案。6) 缓存机制:为了提高效率,框架还引入了缓存机制,存储已经检索过的知识,避免重复检索。

关键创新:该方法最重要的创新点在于其低成本、高效的跨语言知识迁移策略。通过词级翻译和英语知识图谱的利用,避免了从头训练多语言LLM的巨大开销。同时,多角度排序和缓存机制进一步提高了检索效率和准确性。与现有方法相比,MKG-Rank能够更好地利用现有的知识资源,实现跨语言的医学问答。

关键设计:在词级翻译方面,论文可能采用了现成的机器翻译API或词典。多角度排序可能涉及多个排序指标,例如实体相关性、关系强度等。缓存机制可能采用了LRU(Least Recently Used)等策略。具体的损失函数和网络结构取决于LLM的选择,但整体框架的设计目标是尽可能减少对LLM结构的修改,使其能够专注于知识的推理和整合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MKG-Rank在中文、日语、韩语和斯瓦希里语的医学问答任务中均取得了显著的性能提升,最高准确率提升达到35.03%。与零样本LLM相比,MKG-Rank能够更有效地利用知识图谱中的信息,提高问答的准确性和可靠性。同时,该方法保持了极低的平均检索时间,仅为0.0009秒,保证了系统的实时性和可用性。

🎯 应用场景

MKG-Rank在多语言医疗健康领域具有广泛的应用前景。它可以帮助医生和患者在不同语言环境下获取准确的医学知识,促进跨国医疗合作和交流。此外,该技术还可以应用于智能健康助手、医学教育和研究等领域,提升医疗服务的质量和效率,尤其对于缺乏医学资源的低资源语言地区具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable progress in medical question answering (QA), yet their effectiveness remains predominantly limited to English due to imbalanced multilingual training data and scarce medical resources for low-resource languages. To address this critical language gap in medical QA, we propose Multilingual Knowledge Graph-based Retrieval Ranking (MKG-Rank), a knowledge graph-enhanced framework that enables English-centric LLMs to perform multilingual medical QA. Through a word-level translation mechanism, our framework efficiently integrates comprehensive English-centric medical knowledge graphs into LLM reasoning at a low cost, mitigating cross-lingual semantic distortion and achieving precise medical QA across language barriers. To enhance efficiency, we introduce caching and multi-angle ranking strategies to optimize the retrieval process, significantly reducing response times and prioritizing relevant medical knowledge. Extensive evaluations on multilingual medical QA benchmarks across Chinese, Japanese, Korean, and Swahili demonstrate that MKG-Rank consistently outperforms zero-shot LLMs, achieving maximum 35.03% increase in accuracy, while maintaining an average retrieval time of only 0.0009 seconds.