The Impact of Image Resolution on Biomedical Multimodal Large Language Models

📄 arXiv: 2510.18304v1 📥 PDF

作者: Liangyu Chen, James Burgess, Jeffrey J Nirschl, Orr Zohar, Serena Yeung-Levy

分类: cs.CV, cs.CL

发布日期: 2025-10-21

备注: Proceedings of the 10th Machine Learning for Healthcare Conference, PMLR 298, 2025


💡 一句话要点

研究图像分辨率对生物医学多模态大语言模型性能的影响,提出混合分辨率训练策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 生物医学图像分析 图像分辨率 混合分辨率训练 深度学习

📋 核心要点

  1. 现有MLLM主要针对低分辨率图像设计,应用于高分辨率生物医学图像时会损失关键信息,影响分析性能。
  2. 论文提出混合分辨率训练策略,旨在缓解训练和推理分辨率不匹配的问题,平衡计算资源消耗和模型性能。
  3. 实验表明,原生分辨率训练和推理显著提升性能,混合分辨率训练有效缓解分辨率不匹配带来的性能下降。

📝 摘要(中文)

成像技术是生物医学研究和现代医学的基础,需要分析各种模态的高分辨率图像。多模态大语言模型(MLLM)在生物医学图像分析方面显示出潜力,但大多数模型是为通用数据集的低分辨率图像设计的,这可能导致关键信息丢失。本文研究了图像分辨率如何影响MLLM在生物医学应用中的性能,并证明:(1)原生分辨率训练和推理显著提高了多个任务的性能;(2)训练和推理分辨率之间的不匹配会严重降低性能;(3)混合分辨率训练有效地缓解了不匹配问题,并在计算约束和性能需求之间取得了平衡。基于这些发现,我们建议优先考虑原生分辨率推理和混合分辨率数据集,以优化生物医学MLLM,从而在科学研究和临床应用中产生变革性影响。

🔬 方法详解

问题定义:论文旨在解决生物医学多模态大语言模型(MLLM)在处理高分辨率生物医学图像时面临的性能瓶颈问题。现有MLLM通常在低分辨率的通用图像数据集上进行训练,直接应用于高分辨率的生物医学图像会导致关键细节信息丢失,从而影响模型的分析和理解能力。此外,训练和推理阶段分辨率的不匹配也会显著降低模型性能。

核心思路:论文的核心思路是研究图像分辨率对MLLM性能的影响,并提出一种混合分辨率训练策略来缓解训练和推理分辨率不匹配的问题。通过在不同分辨率的图像上进行训练,模型可以更好地适应不同分辨率的输入,从而提高在实际应用中的泛化能力和鲁棒性。

技术框架:论文的技术框架主要包括以下几个部分:首先,构建包含不同分辨率生物医学图像的数据集;其次,选择或构建一个MLLM模型作为基础模型;然后,采用不同的训练策略,包括原生分辨率训练、低分辨率训练和混合分辨率训练;最后,在多个生物医学图像分析任务上评估模型的性能。整体流程是:数据准备 -> 模型选择/构建 -> 模型训练 -> 性能评估。

关键创新:论文的关键创新在于提出了混合分辨率训练策略。与传统的单一分辨率训练方法相比,混合分辨率训练能够更好地平衡计算资源消耗和模型性能,同时缓解训练和推理分辨率不匹配的问题。这种策略使得模型能够更好地适应不同分辨率的输入,从而提高在实际应用中的泛化能力和鲁棒性。

关键设计:在混合分辨率训练中,关键的设计包括:不同分辨率图像的比例、训练过程中分辨率的切换策略、以及针对不同分辨率图像的损失函数权重。具体而言,可以采用以下策略:(1) 根据数据集的特点和计算资源的限制,确定不同分辨率图像的比例;(2) 在训练过程中,可以采用随机采样或 curriculum learning 的方式来切换不同分辨率的图像;(3) 可以根据不同分辨率图像的重要性,调整损失函数的权重,例如,对高分辨率图像赋予更高的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,原生分辨率训练和推理显著提高了MLLM在生物医学图像分析任务中的性能。与低分辨率训练相比,原生分辨率训练在多个任务上取得了显著的性能提升。此外,混合分辨率训练有效地缓解了训练和推理分辨率不匹配带来的性能下降,并在计算资源有限的情况下实现了较好的性能。

🎯 应用场景

该研究成果可应用于多种生物医学图像分析任务,例如疾病诊断、药物研发、生物标志物发现等。通过优化MLLM对高分辨率生物医学图像的处理能力,可以提高诊断的准确性和效率,加速药物研发进程,并为个性化医疗提供更精确的依据。未来,该研究有望推动生物医学领域的技术创新和临床应用。

📄 摘要(原文)

Imaging technologies are fundamental to biomedical research and modern medicine, requiring analysis of high-resolution images across various modalities. While multimodal large language models (MLLMs) show promise for biomedical image analysis, most are designed for low-resolution images from general-purpose datasets, risking critical information loss. We investigate how image resolution affects MLLM performance in biomedical applications and demonstrate that: (1) native-resolution training and inference significantly improve performance across multiple tasks, (2) misalignment between training and inference resolutions severely degrades performance, and (3) mixed-resolution training effectively mitigates misalignment and balances computational constraints with performance requirements. Based on these findings, we recommend prioritizing native-resolution inference and mixed-resolution datasets to optimize biomedical MLLMs for transformative impact in scientific research and clinical applications.