Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

作者: Da Wu, Zhanliang Wang, Quan Nguyen, Zhuoran Xu, Kai Wang

分类: q-bio.QM, cs.CL, cs.CV, cs.LG

发布日期: 2025-05-09

备注: First Draft

💡 一句话要点

MINT：通过偏好优化实现多模态知识迁移到大语言模型，应用于生物医学领域

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 知识迁移 偏好优化 大语言模型 生物医学 罕见疾病预测 组织类型分类

📋 核心要点

高质量多模态生物医学数据匮乏，限制了LLM在生物医学领域的微调效果，现有方法难以有效利用多模态信息。
MINT框架通过偏好优化，将多模态数据中的领域知识迁移到单模态LLM，使其能利用文本或图像进行预测。
实验表明，MINT在罕见遗传病预测和组织类型分类任务中，显著优于SFT、RAG、DPO等方法，并超越了更大的LLM。

📝 摘要（中文）

高质量多模态生物医学数据的稀缺性限制了预训练大语言模型(LLM)在特定生物医学任务上的有效微调。为了解决这一挑战，我们提出了一种名为MINT（多模态集成知识迁移）的框架，该框架通过偏好优化将单模态大型解码器模型与来自多模态生物医学数据的领域特定决策模式对齐。虽然MINT支持不同的优化技术，但我们主要使用Odds Ratio Preference Optimization (ORPO)框架作为其主干。这种策略使得对齐后的LLM能够使用纯文本或纯图像输入执行预测任务，同时保留从多模态数据中学到的知识。MINT利用在上游高质量多模态数据上训练的多模态机器学习(MML)模型，将领域特定见解迁移到下游纯文本或纯图像LLM。我们通过两个关键应用证明了其有效性：(1)基于文本的罕见遗传病预测，MINT使用在面部照片和临床笔记上训练的多模态编码器模型来生成偏好数据集，用于对齐轻量级的Llama 3.2-3B-Instruct。尽管仅依赖文本输入，但MINT模型优于使用SFT、RAG或DPO训练的模型，甚至优于Llama 3.1-405B-Instruct。(2)使用细胞核图像进行组织类型分类，MINT使用视觉-语言基础模型作为偏好生成器，其中包含从文本和组织病理学图像中学到的知识，以对齐下游纯图像模型。由此产生的MINT模型显著提高了Llama 3.2-Vision-11B-Instruct在组织类型分类上的性能。总而言之，MINT提供了一种有效的策略，通过偏好优化将单模态LLM与高质量多模态专业知识对齐。

🔬 方法详解

问题定义：论文旨在解决生物医学领域中，高质量多模态数据稀缺导致LLM难以有效微调的问题。现有方法要么无法充分利用多模态信息，要么需要大量计算资源进行训练，限制了其在资源受限场景下的应用。

核心思路：论文的核心思路是利用多模态机器学习模型从高质量多模态数据中提取领域知识，然后通过偏好优化将这些知识迁移到单模态LLM。这样，即使只有文本或图像输入，LLM也能利用从多模态数据中学到的知识进行预测。这种方法避免了直接在LLM上进行多模态训练，降低了计算成本。

技术框架：MINT框架包含以下主要模块：1) 上游多模态机器学习模型：该模型在高质量多模态数据上进行训练，用于提取领域知识。2) 偏好数据集生成器：利用上游模型生成偏好数据集，该数据集包含模型对不同输出的偏好排序。3) 下游单模态LLM：该模型通过偏好优化与偏好数据集对齐，从而获得多模态知识。论文主要使用ORPO框架进行偏好优化。

关键创新：MINT的关键创新在于其知识迁移策略，它通过偏好优化将多模态模型的知识迁移到单模态LLM，而无需直接在LLM上进行多模态训练。这种方法能够有效利用高质量多模态数据，并降低了计算成本。与现有方法相比，MINT能够更好地利用多模态信息，并提高LLM在单模态任务上的性能。

关键设计：在罕见遗传病预测任务中，MINT使用在面部照片和临床笔记上训练的多模态编码器模型作为偏好生成器，并使用Llama 3.2-3B-Instruct作为下游LLM。在组织类型分类任务中，MINT使用视觉-语言基础模型作为偏好生成器，并使用Llama 3.2-Vision-11B-Instruct作为下游LLM。论文主要使用Odds Ratio Preference Optimization (ORPO)框架进行偏好优化，具体参数设置未知。

📊 实验亮点

在罕见遗传病预测任务中，MINT模型优于使用SFT、RAG或DPO训练的模型，甚至超越了Llama 3.1-405B-Instruct。在组织类型分类任务中，MINT显著提高了Llama 3.2-Vision-11B-Instruct的性能。这些结果表明，MINT能够有效利用多模态知识，并显著提高LLM在生物医学任务上的性能。

🎯 应用场景

MINT框架在生物医学领域具有广泛的应用前景，例如罕见疾病诊断、医学图像分析、药物研发等。通过将多模态数据中的知识迁移到LLM，可以提高诊断准确率、辅助医生进行决策，并加速药物研发进程。该研究有望推动生物医学人工智能的发展，并为改善人类健康做出贡献。

📄 摘要（原文）

The scarcity of high-quality multimodal biomedical data limits the ability to effectively fine-tune pretrained Large Language Models (LLMs) for specialized biomedical tasks. To address this challenge, we introduce MINT (Multimodal Integrated kNowledge Transfer), a framework that aligns unimodal large decoder models with domain-specific decision patterns from multimodal biomedical data through preference optimization. While MINT supports different optimization techniques, we primarily implement it with the Odds Ratio Preference Optimization (ORPO) framework as its backbone. This strategy enables the aligned LLMs to perform predictive tasks using text-only or image-only inputs while retaining knowledge learnt from multimodal data. MINT leverages an upstream multimodal machine learning (MML) model trained on high-quality multimodal data to transfer domain-specific insights to downstream text-only or image-only LLMs. We demonstrate its effectiveness through two key applications: (1) Rare genetic disease prediction from texts, where MINT uses a multimodal encoder model, trained on facial photos and clinical notes, to generate a preference dataset for aligning a lightweight Llama 3.2-3B-Instruct. Despite relying on text input only, the MINT-derived model outperforms models trained with SFT, RAG, or DPO, and even outperforms Llama 3.1-405B-Instruct. (2) Tissue type classification using cell nucleus images, where MINT uses a vision-language foundation model as the preference generator, containing knowledge learnt from both text and histopathological images to align downstream image-only models. The resulting MINT-derived model significantly improves the performance of Llama 3.2-Vision-11B-Instruct on tissue type classification. In summary, MINT provides an effective strategy to align unimodal LLMs with high-quality multimodal expertise through preference optimization.

Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理