LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

作者: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang

分类: cs.CV

发布日期: 2025-10-03

💡 一句话要点

LEAML：面向多模态大语言模型，实现标签高效的领域外视觉任务自适应

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 领域自适应 标签高效学习 伪标签生成 选择性神经元更新

📋 核心要点

多模态大语言模型在特定领域外数据上表现不佳，主要原因是缺乏标注数据，获取成本高昂。
LEAML框架利用少量标注数据和大量未标注数据，通过伪标签生成和选择性神经元更新实现高效自适应。
实验表明，LEAML在胃肠内窥镜和体育VQA任务上优于标准微调，验证了其有效性。

📝 摘要（中文）

多模态大语言模型(MLLMs)在通用视觉基准测试中表现出色，但在医学成像等专业领域的外分布(OOD)任务中表现不佳，这些领域的标注数据有限且昂贵。我们提出了LEAML，一个标签高效的自适应框架，它利用稀缺的标注VQA样本和大量的未标注图像。我们的方法使用由caption distillation正则化的QA生成器，为未标注数据生成领域相关的伪问答对。重要的是，我们选择性地更新与问答最相关的神经元，使QA生成器能够在蒸馏过程中有效地获取领域特定知识。在胃肠内窥镜和体育VQA上的实验表明，LEAML在最小监督下始终优于标准微调，突出了我们提出的LEAML框架的有效性。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型(MLLMs)在特定领域，特别是标注数据稀缺的领域，进行视觉问答(VQA)任务时，泛化能力不足的问题。现有方法通常需要大量的标注数据进行微调，但在实际应用中，获取这些数据的成本很高，限制了MLLMs在这些领域的应用。

核心思路：论文的核心思路是利用大量的未标注数据，通过生成伪标签的方式来扩充训练数据，并采用选择性更新策略，只更新与问答任务相关的神经元，从而提高训练效率和泛化能力。这种方法可以在少量标注数据的条件下，使模型快速适应新的领域。

技术框架：LEAML框架包含以下几个主要模块：1) QA生成器：用于生成伪问答对，输入是未标注图像，输出是问题和答案。2) Caption Distillation：使用图像描述模型生成图像的描述，并以此来正则化QA生成器，保证生成的问题和答案与图像内容相关。3) 选择性神经元更新：只更新与问答任务相关的神经元，避免无关神经元的干扰，提高训练效率。整体流程是：首先使用Caption Distillation正则化QA生成器，然后使用QA生成器为未标注数据生成伪问答对，最后使用标注数据和伪问答对微调MLLM，并采用选择性神经元更新策略。

关键创新：论文的关键创新在于提出了选择性神经元更新策略。传统的微调方法会更新所有神经元，但在领域自适应任务中，很多神经元与目标任务无关，更新这些神经元反而会降低模型的泛化能力。LEAML通过选择性地更新与问答任务相关的神经元，可以更有效地利用有限的标注数据，提高模型的泛化能力。

关键设计：在Caption Distillation中，使用了交叉熵损失函数来衡量QA生成器生成的问题和答案与图像描述之间的差异。在选择性神经元更新中，使用了L1正则化来选择与问答任务相关的神经元。具体来说，对于每个神经元，计算其在问答任务中的激活程度，并根据激活程度的大小来决定是否更新该神经元。此外，还使用了dropout等正则化技术来防止过拟合。

📊 实验亮点

LEAML在胃肠内窥镜VQA和体育VQA两个任务上进行了实验，结果表明，LEAML在少量标注数据的情况下，显著优于标准微调方法。例如，在胃肠内窥镜VQA任务中，LEAML在只使用10%标注数据的情况下，达到了与使用全部标注数据进行标准微调相当的性能。此外，LEAML还能够有效地利用未标注数据，进一步提高模型的性能。

🎯 应用场景

LEAML框架具有广泛的应用前景，尤其是在医学影像分析、遥感图像解译、工业质检等领域，这些领域通常缺乏大量的标注数据。通过利用未标注数据和少量标注数据，LEAML可以帮助MLLMs快速适应这些领域的任务，提高诊断精度、解译效率和产品质量，具有重要的实际应用价值和潜在的社会经济效益。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册