Grounded Multilingual Medical Reasoning for Question Answering with Large Language Models
作者: Pietro Ferrazzi, Aitor Soroa, Rodrigo Agerri
分类: cs.CL, cs.AI
发布日期: 2025-12-05
备注: Under Review
💡 一句话要点
提出基于医学知识增强的多语言医学问答推理方法,提升大语言模型性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学问答 多语言 大语言模型 知识增强 推理轨迹 检索增强生成 临床决策支持
📋 核心要点
- 现有医学问答方法主要集中在英语,且依赖通用大语言模型的知识蒸馏,医学知识的可靠性存在隐患。
- 论文提出一种基于检索增强生成的方法,构建多语言(英、意、西)医学知识推理轨迹,提升模型医学知识。
- 实验表明,该方法通过上下文学习和监督微调,在医学问答基准测试中显著提升性能,达到SOTA水平。
📝 摘要(中文)
本文提出了一种生成基于事实医学知识的多语言推理轨迹的方法,用于医学问答(QA)。作者使用从维基百科医学信息中检索增强生成的方法,生成了英语、意大利语和西班牙语的50万条推理轨迹,用于解决MedQA和MedMCQA中的医学问题,并将其扩展到意大利语和西班牙语。该方法在医学QA基准测试的领域内和领域外设置中进行了测试,结果表明,推理轨迹通过上下文学习(少样本)和监督微调均能提高性能,并在80亿参数的大语言模型中取得了最先进的结果。作者发布了完整的资源套件:推理轨迹、翻译的QA数据集、医学维基百科和微调模型,旨在支持开发更安全、更透明的多语言临床决策支持工具。
🔬 方法详解
问题定义:现有的大语言模型在医学问答方面展现出潜力,但主要集中于英语,并且依赖于通用大语言模型的知识蒸馏,这导致其医学知识的可靠性受到质疑。论文旨在解决大语言模型在多语言医学问答中医学知识不足和推理能力有限的问题。
核心思路:论文的核心思路是利用检索增强生成(Retrieval-Augmented Generation, RAG)的方法,从医学维基百科中检索相关知识,并生成多语言的推理轨迹。通过这些推理轨迹,可以提升大语言模型在医学问答任务中的表现,并提高其医学知识的可靠性。
技术框架:整体框架包含以下几个主要模块:1) 问题收集与翻译:收集MedQA和MedMCQA数据集,并将其翻译成意大利语和西班牙语。2) 知识检索:对于每个问题,从医学维基百科中检索相关的医学知识。3) 推理轨迹生成:利用检索到的知识,生成英语、意大利语和西班牙语的推理轨迹,这些轨迹包含了解决问题的步骤和依据。4) 模型训练与评估:使用生成的推理轨迹,通过上下文学习(少样本)和监督微调的方式训练大语言模型,并在医学QA基准测试中进行评估。
关键创新:该论文的关键创新在于:1) 多语言推理轨迹生成:构建了英语、意大利语和西班牙语的医学推理轨迹,扩展了现有医学问答研究的语言范围。2) 基于医学维基百科的知识增强:利用医学维基百科作为知识来源,保证了医学知识的专业性和可靠性。3) 检索增强生成方法:通过检索增强生成的方法,将外部知识融入到推理过程中,提高了模型的推理能力。
关键设计:论文的关键设计包括:1) 检索策略:使用有效的检索策略,从医学维基百科中检索到与问题相关的知识。2) 推理轨迹生成模板:设计合适的推理轨迹生成模板,确保生成的推理轨迹能够清晰地表达解决问题的步骤和依据。3) 微调策略:采用合适的微调策略,将生成的推理轨迹融入到大语言模型中,提高其在医学问答任务中的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在医学QA基准测试中取得了显著的性能提升。通过上下文学习和监督微调,在80亿参数的大语言模型中取得了最先进的结果,超过了现有的基线方法。具体性能数据和提升幅度在论文中详细展示,证明了该方法在医学问答任务中的有效性。
🎯 应用场景
该研究成果可应用于开发多语言临床决策支持工具,帮助医生进行诊断和治疗方案选择。通过提供基于医学知识的推理过程,增强决策的透明度和可信度,尤其是在资源匮乏或语言障碍的地区,具有重要的应用价值。未来可扩展到更多语言和医学领域,构建更完善的医学知识库和推理系统。
📄 摘要(原文)
Large Language Models (LLMs) with reasoning capabilities have recently demonstrated strong potential in medical Question Answering (QA). Existing approaches are largely English-focused and primarily rely on distillation from general-purpose LLMs, raising concerns about the reliability of their medical knowledge. In this work, we present a method to generate multilingual reasoning traces grounded in factual medical knowledge. We produce 500k traces in English, Italian, and Spanish, using a retrievalaugmented generation approach over medical information from Wikipedia. The traces are generated to solve medical questions drawn from MedQA and MedMCQA, which we extend to Italian and Spanish. We test our pipeline in both in-domain and outof-domain settings across Medical QA benchmarks, and demonstrate that our reasoning traces improve performance both when utilized via in-context learning (few-shot) and supervised fine-tuning, yielding state-of-the-art results among 8B-parameter LLMs. We believe that these resources can support the development of safer, more transparent clinical decision-support tools in multilingual settings. We release the full suite of resources: reasoning traces, translated QA datasets, Medical-Wikipedia, and fine-tuned models.