Biomedical Visual Instruction Tuning with Clinician Preference Alignment

作者: Hejie Cui, Lingjun Mao, Xin Liang, Jieyu Zhang, Hui Ren, Quanzheng Li, Xiang Li, Carl Yang

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-06-19 (更新: 2024-07-16)

💡 一句话要点

BioMed-VITAL：通过临床医生偏好对齐进行生物医学视觉指令调优

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生物医学 视觉指令调优 临床医生偏好 多模态学习 数据生成 数据选择 医学VQA

📋 核心要点

现有生物医学多模态模型缺乏领域专业知识对齐，导致性能受限。
BioMed-VITAL通过临床医生偏好对齐，指导数据生成和选择，提升模型性能。
实验表明，该方法在开放视觉聊天和医学VQA任务中取得了显著的性能提升。

📝 摘要（中文）

多模态基础模型在理解和推理视觉及文本信息方面展现了卓越能力。将这些通用模型应用于生物医学等专业领域，需要大规模的领域特定指令数据集。现有工作虽探索了自动构建此类数据集，但结果并未明确与领域专业知识对齐。本文提出了一个以数据为中心的框架，即BioMed-VITAL，它将临床医生偏好融入到生成和选择指令数据的两个阶段，用于调整生物医学多模态基础模型。首先，在生成阶段，我们使用GPT-4V生成器，并提供临床医生选择的各种演示，以生成与偏好对齐的数据候选集。然后，在选择阶段，我们训练一个单独的选择模型，将临床医生和策略引导的模型偏好提炼成一个评分函数，以选择高质量数据进行医学指令调优。结果表明，使用我们的方法生成的指令数据进行调优的模型在开放视觉聊天（相对提升18.5%）和医学VQA（胜率高达81.73%）方面表现出显著提升。我们的指令数据和模型可在BioMed-VITAL.github.io上获取。

🔬 方法详解

问题定义：现有方法在构建生物医学视觉指令数据集时，未能充分利用临床医生的专业知识和偏好，导致模型在特定任务上的表现不佳。痛点在于生成的数据质量不高，与实际临床需求存在偏差。

核心思路：核心在于将临床医生的偏好融入到数据生成和选择的整个流程中。通过模仿临床医生的决策过程，生成更符合医学领域需求的数据，并利用临床医生的反馈来筛选高质量的数据，从而提升模型的性能。

技术框架：BioMed-VITAL框架包含两个主要阶段：数据生成阶段和数据选择阶段。在数据生成阶段，利用GPT-4V等大型语言模型，并提供临床医生选择的演示案例，生成候选的指令数据。在数据选择阶段，训练一个独立的评分模型，该模型学习临床医生和策略引导的模型偏好，用于对候选数据进行评分，并选择高质量的数据用于后续的指令调优。

关键创新：最重要的创新点在于显式地将临床医生的偏好融入到数据生成和选择的过程中。与以往的自动数据生成方法不同，BioMed-VITAL更加注重数据的质量和与领域专业知识的对齐。通过这种方式，可以有效地提升模型在生物医学领域的表现。

关键设计：在数据生成阶段，精心设计了prompt，以引导GPT-4V生成更符合临床医生偏好的数据。在数据选择阶段，评分模型的训练目标是学习临床医生的偏好，可以使用各种机器学习方法，例如排序学习或回归模型。具体的损失函数和网络结构需要根据实际情况进行调整和优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用BioMed-VITAL方法生成的指令数据进行调优的模型在开放视觉聊天任务中取得了18.5%的相对提升，在医学VQA任务中胜率高达81.73%。这些结果显著优于现有方法，证明了该方法在生物医学领域的有效性。

🎯 应用场景

该研究成果可应用于医学影像诊断、辅助临床决策、医学教育等领域。通过提升生物医学多模态模型的性能，可以帮助医生更准确地诊断疾病，为患者提供更有效的治疗方案。未来，该方法有望推广到其他专业领域，提升人工智能在各个行业的应用价值。

📄 摘要（原文）

Recent advancements in multimodal foundation models have showcased impressive capabilities in understanding and reasoning with visual and textual information. Adapting these foundation models trained for general usage to specialized domains like biomedicine requires large-scale domain-specific instruction datasets. While existing works have explored curating such datasets automatically, the resultant datasets are not explicitly aligned with domain expertise. In this work, we propose a data-centric framework, Biomedical Visual Instruction Tuning with Clinician Preference Alignment (BioMed-VITAL), that incorporates clinician preferences into both stages of generating and selecting instruction data for tuning biomedical multimodal foundation models. First, during the generation stage, we prompt the GPT-4V generator with a diverse set of clinician-selected demonstrations for preference-aligned data candidate generation. Then, during the selection phase, we train a separate selection model, which explicitly distills clinician and policy-guided model preferences into a rating function to select high-quality data for medical instruction tuning. Results show that the model tuned with the instruction-following data from our method demonstrates a significant improvement in open visual chat (18.5% relatively) and medical VQA (win rate up to 81.73%). Our instruction-following data and models are available at BioMed-VITAL.github.io.

Biomedical Visual Instruction Tuning with Clinician Preference Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理