Zero-shot Performance of Generative AI in Brazilian Portuguese Medical Exam
作者: Cesar Augusto Madid Truyts, Amanda Gomes Rabelo, Gabriel Mesquita de Souza, Daniel Scaldaferri Lages, Adriano Jose Pereira, Uri Adrian Prync Flato, Eduardo Pontes dos Reis, Joaquim Edson Vieira, Paulo Sergio Panse Silveira, Edson Amaro Junior
分类: cs.CL
发布日期: 2025-07-26
💡 一句话要点
评估生成式AI在巴西葡萄牙语医学考试中的零样本表现,揭示语言差异与多模态推理挑战。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多模态学习 零样本学习 医学考试 巴西葡萄牙语 医疗AI 语言差异
📋 核心要点
- 现有大型语言模型和多模态大型语言模型的评估主要集中在英语上,可能导致其在不同语言环境下的性能存在偏差。
- 本研究通过评估模型在巴西葡萄牙语医学考试中的零样本表现,揭示了模型在非英语环境下的能力。
- 实验结果表明,部分模型在特定任务上表现接近人类水平,但多模态推理和语言差异仍然是挑战。
📝 摘要(中文)
本研究调查了六个大型语言模型(LLMs)和四个多模态大型语言模型(MLLMs)在回答巴西圣保罗大学医学院附属医院(HCFMUSP)医学住院医师入学考试中用巴西葡萄牙语提出的问题时的能力。该医院是南美最大的医疗综合体。研究将这些模型的表现与人类考生进行基准测试,分析了准确性、处理时间和生成解释的连贯性。结果表明,虽然某些模型(特别是Claude-3.5-Sonnet和Claude-3-Opus)达到了与人类考生相当的准确率,但仍然存在性能差距,尤其是在需要图像解释的多模态问题中。此外,该研究强调了语言差异,强调需要为非英语医学AI应用进一步进行微调和数据集扩充。研究结果强调了在各种语言和临床环境中评估生成式AI的重要性,以确保在医疗保健中公平可靠地部署。未来的研究应探索改进的训练方法、改进的多模态推理以及AI驱动的医疗辅助的实际临床整合。
🔬 方法详解
问题定义:本研究旨在评估大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在处理巴西葡萄牙语医学考试问题时的零样本表现。现有方法主要集中在英语数据集上,忽略了非英语环境下的性能评估,导致模型在不同语言和文化背景下的适用性未知。现有模型的痛点在于缺乏对非英语医学知识的理解和推理能力,尤其是在处理包含图像的多模态问题时。
核心思路:本研究的核心思路是直接使用巴西葡萄牙语的医学考试题作为测试集,评估模型在零样本条件下的表现。通过对比不同模型的准确率、处理时间和解释的连贯性,分析模型在处理非英语医学问题时的优势和不足。这种方法能够直接反映模型在实际应用场景中的性能,并为未来的模型优化提供指导。
技术框架:本研究的技术框架主要包括以下几个步骤:1) 收集巴西圣保罗大学医学院附属医院的医学住院医师入学考试题,并将其翻译成巴西葡萄牙语。2) 选择六个LLMs(GPT-4.0 Turbo, LLaMA-3-8B, LLaMA-3-70B, Mixtral 8x7B Instruct, Titan Text G1-Express, and Command R+)和四个MLLMs(Claude-3.5-Sonnet, Claude-3-Opus, Claude-3-Sonnet, and Claude-3-Haiku)作为评估对象。3) 将考试题输入到各个模型中,并记录模型的答案、处理时间和生成的解释。4) 将模型的答案与标准答案进行对比,计算模型的准确率。5) 对模型的解释进行人工评估,评估其连贯性和合理性。6) 将模型的表现与人类考生的表现进行对比,分析模型的优势和不足。
关键创新:本研究的关键创新在于首次系统性地评估了LLMs和MLLMs在巴西葡萄牙语医学考试中的零样本表现。以往的研究主要集中在英语数据集上,缺乏对非英语医学知识的评估。本研究通过使用真实的医学考试题作为测试集,能够更准确地反映模型在实际应用场景中的性能。此外,本研究还分析了模型在处理多模态问题时的能力,揭示了模型在图像理解方面的不足。
关键设计:本研究的关键设计包括:1) 选择具有代表性的LLMs和MLLMs作为评估对象,覆盖了不同架构和规模的模型。2) 使用真实的医学考试题作为测试集,保证了评估的真实性和可靠性。3) 对模型的答案和解释进行多维度评估,包括准确率、处理时间和连贯性。4) 将模型的表现与人类考生的表现进行对比,为模型的优化提供参考。
🖼️ 关键图片
📊 实验亮点
研究结果显示,Claude-3.5-Sonnet和Claude-3-Opus在巴西葡萄牙语医学考试中的准确率与人类考生相当,表明这些模型在特定任务上具有较强的能力。然而,在处理需要图像解释的多模态问题时,所有模型的表现均不如人类考生,突显了多模态推理的挑战。该研究强调了语言差异对模型性能的影响,为未来模型优化提供了重要参考。
🎯 应用场景
该研究成果可应用于开发面向巴西葡萄牙语使用者的AI医疗辅助工具,例如辅助诊断、医学知识问答等。通过提升模型在非英语环境下的性能,可以促进医疗资源的公平分配,改善医疗服务质量,尤其是在医疗资源匮乏的地区具有重要意义。未来,该研究可扩展到其他语言和医学领域,推动AI在医疗领域的全球化应用。
📄 摘要(原文)
Artificial intelligence (AI) has shown the potential to revolutionize healthcare by improving diagnostic accuracy, optimizing workflows, and personalizing treatment plans. Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have achieved notable advancements in natural language processing and medical applications. However, the evaluation of these models has focused predominantly on the English language, leading to potential biases in their performance across different languages. This study investigates the capability of six LLMs (GPT-4.0 Turbo, LLaMA-3-8B, LLaMA-3-70B, Mixtral 8x7B Instruct, Titan Text G1-Express, and Command R+) and four MLLMs (Claude-3.5-Sonnet, Claude-3-Opus, Claude-3-Sonnet, and Claude-3-Haiku) to answer questions written in Brazilian spoken portuguese from the medical residency entrance exam of the Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo (HCFMUSP) - the largest health complex in South America. The performance of the models was benchmarked against human candidates, analyzing accuracy, processing time, and coherence of the generated explanations. The results show that while some models, particularly Claude-3.5-Sonnet and Claude-3-Opus, achieved accuracy levels comparable to human candidates, performance gaps persist, particularly in multimodal questions requiring image interpretation. Furthermore, the study highlights language disparities, emphasizing the need for further fine-tuning and data set augmentation for non-English medical AI applications. Our findings reinforce the importance of evaluating generative AI in various linguistic and clinical settings to ensure a fair and reliable deployment in healthcare. Future research should explore improved training methodologies, improved multimodal reasoning, and real-world clinical integration of AI-driven medical assistance.