MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge

作者: Baochen Fu, Yuntao Du, Cheng Chang, Baihao Jin, Wenzhi Deng, Muhao Xu, Hongmei Yan, Weiye Song, Yi Wan

分类: cs.CL

发布日期: 2026-03-16

💡 一句话要点

提出MMKU-Bench，用于评估多模态模型在知识更新方面的表现，涵盖已知与未知知识。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 知识更新 基准测试 灾难性遗忘 知识编辑

📋 核心要点

现有方法在多模态知识更新方面存在不足，主要体现在忽略了对已掌握但已变更知识的更新，且缺乏跨模态一致性分析。
论文提出了MMKU-Bench基准，包含更新知识和未知知识两种场景，旨在更全面地评估多模态模型的知识更新能力。
实验结果表明，监督微调和强化学习容易导致灾难性遗忘，知识编辑在持续更新方面存在局限性，为未来研究提供了方向。

📝 摘要（中文）

随着真实世界知识的不断演进，多模态模型在预训练期间获得的参数化知识越来越难以与现实世界保持一致。现有的多模态知识更新研究仅关注学习先前未知的知识，而忽略了更新模型已经掌握但后来发生变化的知识的需求；此外，评估仅限于同一模态，缺乏对跨模态一致性的系统分析。为了解决这些问题，本文提出了MMKU-Bench，这是一个用于多模态知识更新的综合评估基准，包含超过25k个知识实例和超过49k张图像，涵盖了更新知识和未知知识两种场景，从而能够对不同知识类型的学习进行比较分析。在该基准上，我们评估了各种具有代表性的方法，包括监督微调（SFT）、基于人类反馈的强化学习（RLHF）和知识编辑（KE）。实验结果表明，SFT和RLHF容易发生灾难性遗忘，而KE更好地保留了一般能力，但在持续更新方面表现出明显的局限性。总而言之，MMKU-Bench为多模态知识更新提供了一个可靠而全面的评估基准，从而推动了该领域的进展。

🔬 方法详解

问题定义：论文旨在解决多模态模型知识更新的问题，现有方法主要存在两个痛点：一是忽略了对模型已掌握但已发生变化的知识的更新；二是缺乏对跨模态知识一致性的系统评估。这导致模型在面对真实世界不断演进的知识时，难以保持准确性和可靠性。

核心思路：论文的核心思路是构建一个全面的多模态知识更新评估基准，即MMKU-Bench。该基准包含更新知识和未知知识两种场景，并提供丰富的图像和文本数据，从而能够更全面地评估模型在不同知识类型上的学习能力，并分析其跨模态一致性。

技术框架：MMKU-Bench基准主要包含以下几个部分：1）知识实例：包含超过25k个知识实例，涵盖多种知识类型；2）图像数据：包含超过49k张图像，与知识实例相关联；3）评估指标：用于评估模型在知识更新方面的性能，包括准确率、一致性等。研究人员可以使用该基准评估各种多模态知识更新方法，例如监督微调、强化学习和知识编辑等。

关键创新：MMKU-Bench的关键创新在于其全面性和多样性。它不仅考虑了未知知识的学习，还关注了已掌握知识的更新，并提供了丰富的图像和文本数据，从而能够更全面地评估模型在多模态知识更新方面的性能。此外，该基准还提供了多种评估指标，方便研究人员进行比较分析。

关键设计：MMKU-Bench的数据构建过程未知。论文评估了监督微调（SFT）、基于人类反馈的强化学习（RLHF）和知识编辑（KE）等方法，并分析了它们在不同知识类型上的表现。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，监督微调（SFT）和基于人类反馈的强化学习（RLHF）容易发生灾难性遗忘，导致模型在更新知识后忘记了之前的知识。知识编辑（KE）方法在保留一般能力方面表现较好，但在持续更新方面存在局限性。这些发现为未来多模态知识更新方法的研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于智能问答、图像检索、视觉常识推理等领域，提升多模态模型在动态环境下的知识适应能力。通过持续更新知识，模型可以更好地理解和响应用户的需求，提供更准确、可靠的信息服务，具有重要的实际应用价值。

📄 摘要（原文）

As real-world knowledge continues to evolve, the parametric knowledge acquired by multimodal models during pretraining becomes increasingly difficult to remain consistent with real-world knowledge. Existing research on multimodal knowledge updating focuses only on learning previously unknown knowledge, while overlooking the need to update knowledge that the model has already mastered but that later changes; moreover, evaluation is limited to the same modality, lacking a systematic analysis of cross-modal consistency. To address these issues, this paper proposes MMKU-Bench, a comprehensive evaluation benchmark for multimodal knowledge updating, which contains over 25k knowledge instances and more than 49k images, covering two scenarios, updated knowledge and unknown knowledge, thereby enabling comparative analysis of learning across different knowledge types. On this benchmark, we evaluate a variety of representative approaches, including supervised fine-tuning (SFT), reinforcement learning from human feedback (RLHF), and knowledge editing (KE). Experimental results show that SFT and RLHF are prone to catastrophic forgetting, while KE better preserve general capabilities but exhibit clear limitations in continual updating. Overall, MMKU-Bench provides a reliable and comprehensive evaluation benchmark for multimodal knowledge updating, advancing progress in this field.

MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理