LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

📄 arXiv: 2510.03232v1 📥 PDF

作者: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang

分类: cs.CV

发布日期: 2025-10-03


💡 一句话要点

LEAML:面向多模态大语言模型,实现标签高效的领域外视觉任务自适应

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 领域自适应 标签高效学习 伪标签生成 选择性神经元更新

📋 核心要点

  1. 多模态大语言模型在特定领域外数据上表现不佳,主要原因是缺乏标注数据,获取成本高昂。
  2. LEAML框架利用少量标注数据和大量未标注数据,通过伪标签生成和选择性神经元更新实现高效自适应。
  3. 实验表明,LEAML在胃肠内窥镜和体育VQA任务上优于标准微调,验证了其有效性。

📝 摘要(中文)

多模态大语言模型(MLLMs)在通用视觉基准测试中表现出色,但在医学成像等专业领域的外分布(OOD)任务中表现不佳,这些领域的标注数据有限且昂贵。我们提出了LEAML,一个标签高效的自适应框架,它利用稀缺的标注VQA样本和大量的未标注图像。我们的方法使用由caption distillation正则化的QA生成器,为未标注数据生成领域相关的伪问答对。重要的是,我们选择性地更新与问答最相关的神经元,使QA生成器能够在蒸馏过程中有效地获取领域特定知识。在胃肠内窥镜和体育VQA上的实验表明,LEAML在最小监督下始终优于标准微调,突出了我们提出的LEAML框架的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在特定领域,特别是标注数据稀缺的领域,进行视觉问答(VQA)任务时,泛化能力不足的问题。现有方法通常需要大量的标注数据进行微调,但在实际应用中,获取这些数据的成本很高,限制了MLLMs在这些领域的应用。

核心思路:论文的核心思路是利用大量的未标注数据,通过生成伪标签的方式来扩充训练数据,并采用选择性更新策略,只更新与问答任务相关的神经元,从而提高训练效率和泛化能力。这种方法可以在少量标注数据的条件下,使模型快速适应新的领域。

技术框架:LEAML框架包含以下几个主要模块:1) QA生成器:用于生成伪问答对,输入是未标注图像,输出是问题和答案。2) Caption Distillation:使用图像描述模型生成图像的描述,并以此来正则化QA生成器,保证生成的问题和答案与图像内容相关。3) 选择性神经元更新:只更新与问答任务相关的神经元,避免无关神经元的干扰,提高训练效率。整体流程是:首先使用Caption Distillation正则化QA生成器,然后使用QA生成器为未标注数据生成伪问答对,最后使用标注数据和伪问答对微调MLLM,并采用选择性神经元更新策略。

关键创新:论文的关键创新在于提出了选择性神经元更新策略。传统的微调方法会更新所有神经元,但在领域自适应任务中,很多神经元与目标任务无关,更新这些神经元反而会降低模型的泛化能力。LEAML通过选择性地更新与问答任务相关的神经元,可以更有效地利用有限的标注数据,提高模型的泛化能力。

关键设计:在Caption Distillation中,使用了交叉熵损失函数来衡量QA生成器生成的问题和答案与图像描述之间的差异。在选择性神经元更新中,使用了L1正则化来选择与问答任务相关的神经元。具体来说,对于每个神经元,计算其在问答任务中的激活程度,并根据激活程度的大小来决定是否更新该神经元。此外,还使用了dropout等正则化技术来防止过拟合。

📊 实验亮点

LEAML在胃肠内窥镜VQA和体育VQA两个任务上进行了实验,结果表明,LEAML在少量标注数据的情况下,显著优于标准微调方法。例如,在胃肠内窥镜VQA任务中,LEAML在只使用10%标注数据的情况下,达到了与使用全部标注数据进行标准微调相当的性能。此外,LEAML还能够有效地利用未标注数据,进一步提高模型的性能。

🎯 应用场景

LEAML框架具有广泛的应用前景,尤其是在医学影像分析、遥感图像解译、工业质检等领域,这些领域通常缺乏大量的标注数据。通过利用未标注数据和少量标注数据,LEAML可以帮助MLLMs快速适应这些领域的任务,提高诊断精度、解译效率和产品质量,具有重要的实际应用价值和潜在的社会经济效益。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.