FewMMBench: A Benchmark for Multimodal Few-Shot Learning

作者: Mustafa Dogan, Ilker Kesen, Iacer Calixto, Aykut Erdem, Erkut Erdem

分类: cs.CL

发布日期: 2026-02-25

备注: Preprint. 49 pages, 38 Figures, 5 Tables

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

提出FewMMBench，用于评估多模态大语言模型的小样本学习能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 小样本学习 大语言模型 基准测试 上下文学习 思维链 图像文本 模型评估

📋 核心要点

现有的多模态大语言模型的小样本学习能力评估不足，缺乏系统性的基准测试。
FewMMBench通过构建包含多种任务的综合性基准，并结合上下文学习和思维链提示，来评估MLLM的小样本学习能力。
实验结果表明，指令调优的模型零样本性能良好，但小样本学习能力提升有限，FewMMBench可用于诊断和提升MLLM的小样本能力。

📝 摘要（中文）

随着多模态大型语言模型（MLLM）在处理交错图像-文本数据方面的进步，评估它们的小样本学习能力仍然是一个公开的挑战。本文提出了FewMMBench，这是一个综合性的基准，旨在评估MLLM在小样本条件下的性能，重点关注上下文学习（ICL）和思维链（CoT）提示。FewMMBench涵盖了从属性识别到时间推理等多种多模态理解任务，能够对任务类型、模型系列和提示策略进行系统分析。我们评估了来自六个模型系列的26个开源MLLM在零样本、小样本和CoT增强的小样本设置下的性能。我们的研究结果表明，经过指令调优的模型表现出强大的零样本性能，但通过额外的演示或CoT推理几乎没有受益，甚至出现退化。基于检索的演示和增加上下文大小也产生了有限的收益。这些结果突显了FewMMBench作为一个严格的测试平台，用于诊断和提升多模态LLM中的小样本能力。数据可在https://huggingface.co/datasets/mustafaa/FewMMBench 获取。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）小样本学习能力评估的问题。现有方法缺乏一个全面、系统的基准测试，无法充分评估MLLM在少量样本下的学习能力，尤其是在上下文学习（ICL）和思维链（CoT）提示方面的表现。

核心思路：论文的核心思路是构建一个名为FewMMBench的综合性基准测试，该基准包含多种多模态理解任务，并设计了不同的评估场景，包括零样本、小样本和CoT增强的小样本设置。通过在这些场景下评估MLLM的性能，可以更全面地了解其小样本学习能力。

技术框架：FewMMBench的整体框架包括以下几个主要部分：1）数据集构建：收集并整理包含多种多模态理解任务的数据集，涵盖属性识别、时间推理等。2）评估场景设计：设计零样本、小样本和CoT增强的小样本三种评估场景。3）模型评估：选择多个开源MLLM进行评估，并记录其在不同场景下的性能。4）结果分析：分析实验结果，找出MLLM在小样本学习方面的优势和不足。

关键创新：FewMMBench的关键创新在于其综合性和系统性。它不仅包含多种多模态理解任务，还设计了不同的评估场景，能够对MLLM的小样本学习能力进行全面评估。此外，该基准还关注上下文学习和思维链提示，这两种技术是提高MLLM小样本学习能力的重要手段。

关键设计：FewMMBench的关键设计包括：1）数据集的多样性：数据集包含多种多模态理解任务，以覆盖不同的应用场景。2）评估场景的合理性：零样本、小样本和CoT增强的小样本三种评估场景能够全面评估MLLM的小样本学习能力。3）评估指标的准确性：选择合适的评估指标来衡量MLLM的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，指令调优的模型在零样本设置下表现出较强的性能，但在小样本和CoT增强的小样本设置下，性能提升有限，甚至出现退化。此外，基于检索的演示和增加上下文大小对性能的提升也有限。这些结果表明，现有MLLM的小样本学习能力仍有很大的提升空间，FewMMBench可以作为一个有效的测试平台来推动相关研究。

🎯 应用场景

FewMMBench可用于评估和提升多模态大语言模型在各种实际应用场景中的性能，例如智能客服、图像描述、视频理解等。通过该基准，研究人员可以更好地了解MLLM的小样本学习能力，并开发更有效的训练方法和模型架构，从而提高MLLM在实际应用中的表现。

📄 摘要（原文）

As multimodal large language models (MLLMs) advance in handling interleaved image-text data, assessing their few-shot learning capabilities remains an open challenge. In this paper, we introduce FewMMBench, a comprehensive benchmark designed to evaluate MLLMs under few-shot conditions, with a focus on In-Context Learning (ICL) and Chain-of-Thought (CoT) prompting. Covering a diverse suite of multimodal understanding tasks, from attribute recognition to temporal reasoning, FewMMBench enables systematic analysis across task types, model families, and prompting strategies. We evaluate 26 open-weight MLLMs from six model families across zero-shot, few-shot, and CoT-augmented few-shot settings. Our findings reveal that instruction-tuned models exhibit strong zero-shot performance but benefit minimally, or even regress, with additional demonstrations or CoT reasoning. Retrieval-based demonstrations and increased context size also yield limited gains. These results highlight FewMMBench as a rigorous testbed for diagnosing and advancing few-shot capabilities in multimodal LLMs. The data is available at: https://huggingface.co/datasets/mustafaa/FewMMBench

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理