FewMMBench: A Benchmark for Multimodal Few-Shot Learning

📄 arXiv: 2602.21854v1 📥 PDF

作者: Mustafa Dogan, Ilker Kesen, Iacer Calixto, Aykut Erdem, Erkut Erdem

分类: cs.CL

发布日期: 2026-02-25

备注: Preprint. 49 pages, 38 Figures, 5 Tables

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出FewMMBench,用于评估多模态大语言模型的小样本学习能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 小样本学习 大语言模型 基准测试 上下文学习 思维链 图像文本 模型评估

📋 核心要点

  1. 现有的多模态大语言模型的小样本学习能力评估不足,缺乏系统性的基准测试。
  2. FewMMBench通过构建包含多种任务的综合性基准,并结合上下文学习和思维链提示,来评估MLLM的小样本学习能力。
  3. 实验结果表明,指令调优的模型零样本性能良好,但小样本学习能力提升有限,FewMMBench可用于诊断和提升MLLM的小样本能力。

📝 摘要(中文)

随着多模态大型语言模型(MLLM)在处理交错图像-文本数据方面的进步,评估它们的小样本学习能力仍然是一个公开的挑战。本文提出了FewMMBench,这是一个综合性的基准,旨在评估MLLM在小样本条件下的性能,重点关注上下文学习(ICL)和思维链(CoT)提示。FewMMBench涵盖了从属性识别到时间推理等多种多模态理解任务,能够对任务类型、模型系列和提示策略进行系统分析。我们评估了来自六个模型系列的26个开源MLLM在零样本、小样本和CoT增强的小样本设置下的性能。我们的研究结果表明,经过指令调优的模型表现出强大的零样本性能,但通过额外的演示或CoT推理几乎没有受益,甚至出现退化。基于检索的演示和增加上下文大小也产生了有限的收益。这些结果突显了FewMMBench作为一个严格的测试平台,用于诊断和提升多模态LLM中的小样本能力。数据可在https://huggingface.co/datasets/mustafaa/FewMMBench 获取。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)小样本学习能力评估的问题。现有方法缺乏一个全面、系统的基准测试,无法充分评估MLLM在少量样本下的学习能力,尤其是在上下文学习(ICL)和思维链(CoT)提示方面的表现。

核心思路:论文的核心思路是构建一个名为FewMMBench的综合性基准测试,该基准包含多种多模态理解任务,并设计了不同的评估场景,包括零样本、小样本和CoT增强的小样本设置。通过在这些场景下评估MLLM的性能,可以更全面地了解其小样本学习能力。

技术框架:FewMMBench的整体框架包括以下几个主要部分:1)数据集构建:收集并整理包含多种多模态理解任务的数据集,涵盖属性识别、时间推理等。2)评估场景设计:设计零样本、小样本和CoT增强的小样本三种评估场景。3)模型评估:选择多个开源MLLM进行评估,并记录其在不同场景下的性能。4)结果分析:分析实验结果,找出MLLM在小样本学习方面的优势和不足。

关键创新:FewMMBench的关键创新在于其综合性和系统性。它不仅包含多种多模态理解任务,还设计了不同的评估场景,能够对MLLM的小样本学习能力进行全面评估。此外,该基准还关注上下文学习和思维链提示,这两种技术是提高MLLM小样本学习能力的重要手段。

关键设计:FewMMBench的关键设计包括:1)数据集的多样性:数据集包含多种多模态理解任务,以覆盖不同的应用场景。2)评估场景的合理性:零样本、小样本和CoT增强的小样本三种评估场景能够全面评估MLLM的小样本学习能力。3)评估指标的准确性:选择合适的评估指标来衡量MLLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,指令调优的模型在零样本设置下表现出较强的性能,但在小样本和CoT增强的小样本设置下,性能提升有限,甚至出现退化。此外,基于检索的演示和增加上下文大小对性能的提升也有限。这些结果表明,现有MLLM的小样本学习能力仍有很大的提升空间,FewMMBench可以作为一个有效的测试平台来推动相关研究。

🎯 应用场景

FewMMBench可用于评估和提升多模态大语言模型在各种实际应用场景中的性能,例如智能客服、图像描述、视频理解等。通过该基准,研究人员可以更好地了解MLLM的小样本学习能力,并开发更有效的训练方法和模型架构,从而提高MLLM在实际应用中的表现。

📄 摘要(原文)

As multimodal large language models (MLLMs) advance in handling interleaved image-text data, assessing their few-shot learning capabilities remains an open challenge. In this paper, we introduce FewMMBench, a comprehensive benchmark designed to evaluate MLLMs under few-shot conditions, with a focus on In-Context Learning (ICL) and Chain-of-Thought (CoT) prompting. Covering a diverse suite of multimodal understanding tasks, from attribute recognition to temporal reasoning, FewMMBench enables systematic analysis across task types, model families, and prompting strategies. We evaluate 26 open-weight MLLMs from six model families across zero-shot, few-shot, and CoT-augmented few-shot settings. Our findings reveal that instruction-tuned models exhibit strong zero-shot performance but benefit minimally, or even regress, with additional demonstrations or CoT reasoning. Retrieval-based demonstrations and increased context size also yield limited gains. These results highlight FewMMBench as a rigorous testbed for diagnosing and advancing few-shot capabilities in multimodal LLMs. The data is available at: https://huggingface.co/datasets/mustafaa/FewMMBench