HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

作者: Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-06-27 (更新: 2024-09-30)

💡 一句话要点

HuatuoGPT-Vision：通过注入大规模医学视觉知识提升多模态LLM的医学能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学多模态 大型语言模型 数据清洗 视觉问答 PubMed GPT-4V HuatuoGPT-Vision

📋 核心要点

医学多模态LLM面临医学视觉-文本数据匮乏和质量不高的问题，限制了其在医疗领域的应用。
论文提出利用GPT-4V对PubMed医学图像-文本对进行去噪和重构，创建高质量的PubMedVision数据集。
实验表明，基于PubMedVision训练的HuatuoGPT-Vision在医学多模态任务上显著优于其他开源MLLM。

📝 摘要（中文）

多模态大型语言模型（MLLM）如GPT-4V取得了显著进展。然而，由于医学视觉-文本数据的数量和质量受限（源于数据隐私和高标注成本），这些模型在医学多模态能力方面仍面临挑战。尽管有方法利用PubMed的大规模、去标识化医学图像-文本对来缓解这些限制，但由于固有的数据噪声，效果仍然不足。为了解决这个问题，我们改进了来自PubMed的医学图像-文本对，并以“非盲”方式使用MLLM（GPT-4V）来去噪和重新格式化数据，从而创建了包含130万医学VQA样本的PubMedVision数据集。验证表明：（1）PubMedVision可以显著增强当前MLLM的医学多模态能力，在MMMU Health & Medicine等基准测试中表现出显著提升；（2）医学专家的手动检查和经验结果验证了我们的数据集相比其他数据构建方法具有更高的数据质量。我们使用PubMedVision训练了一个34B的医学MLLM HuatuoGPT-Vision，该模型在开源MLLM中表现出卓越的医学多模态场景性能。

🔬 方法详解

问题定义：现有医学多模态大型语言模型（MLLM）受限于高质量医学视觉-文本数据的稀缺性。PubMed虽然包含大量医学图像-文本对，但数据噪声严重，直接使用效果不佳。因此，如何构建大规模、高质量的医学视觉-文本数据集，以提升MLLM的医学多模态能力，是本文要解决的核心问题。

核心思路：论文的核心思路是利用现有的强大MLLM（GPT-4V）作为“教师”，对PubMed中的医学图像-文本对进行去噪和重新格式化。这种“非盲”的方式允许GPT-4V充分利用其已有的知识，更准确地识别和纠正数据中的错误，从而提升数据集的质量。

技术框架：整体流程包括以下几个阶段：1) 从PubMed获取医学图像-文本对；2) 使用GPT-4V对图像-文本对进行分析，识别并纠正错误或不一致之处；3) 将数据重新格式化为医学视觉问答（VQA）的形式；4) 构建PubMedVision数据集；5) 使用PubMedVision数据集训练医学MLLM HuatuoGPT-Vision。

关键创新：最重要的技术创新点在于利用MLLM本身来清洗和构建训练数据。传统方法通常依赖人工标注或简单的规则过滤，效率低且成本高。而本文提出的方法能够自动化地生成高质量的医学VQA数据，显著降低了数据构建的成本，并提高了数据的质量。

关键设计：论文使用了GPT-4V进行数据清洗和重构，具体prompt设计未知。HuatuoGPT-Vision是一个34B参数的医学MLLM，具体网络结构未知，但使用了PubMedVision数据集进行训练。损失函数和优化器等细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于PubMedVision训练的HuatuoGPT-Vision在医学多模态任务上表现出卓越的性能，在MMMU Health & Medicine等基准测试中取得了显著提升。医学专家的手动检查也验证了PubMedVision数据集相比其他数据构建方法具有更高的数据质量。具体性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于智能医学诊断、医学影像报告生成、医学知识问答等领域。高质量的医学多模态数据集和模型能够辅助医生进行更准确、高效的诊断，并为患者提供更好的医疗服务。未来，该技术有望进一步扩展到远程医疗、健康管理等领域，提升医疗服务的可及性和质量。

📄 摘要（原文）

The rapid development of multimodal large language models (MLLMs), such as GPT-4V, has led to significant advancements. However, these models still face challenges in medical multimodal capabilities due to limitations in the quantity and quality of medical vision-text data, stemming from data privacy concerns and high annotation costs. While pioneering approaches utilize PubMed's large-scale, de-identified medical image-text pairs to address these limitations, they still fall short due to inherent data noise. To tackle this, we refined medical image-text pairs from PubMed and employed MLLMs (GPT-4V) in an 'unblinded' capacity to denoise and reformat the data, resulting in the creation of the PubMedVision dataset with 1.3 million medical VQA samples. Our validation demonstrates that: (1) PubMedVision can significantly enhance the medical multimodal capabilities of current MLLMs, showing significant improvement in benchmarks including the MMMU Health & Medicine track; (2) manual checks by medical experts and empirical results validate the superior data quality of our dataset compared to other data construction methods. Using PubMedVision, we train a 34B medical MLLM HuatuoGPT-Vision, which shows superior performance in medical multimodal scenarios among open-source MLLMs.

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理