When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations

📄 arXiv: 2505.24449 📥 PDF

作者: Kailin Jiang, Yuntao Du, Yukai Ding, Yuchen Ren, Ning Jiang, Zhi Gao, Zilong Zheng, Lei Liu, Bin Li, Qing Li

分类: cs.CL

发布日期: 2026-02-28


💡 一句话要点

提出MMEVOKE基准,探索大模型在多模态演进知识注入中的挑战与方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 知识注入 持续学习 大模型 演进知识

📋 核心要点

  1. 现有大模型难以适应快速演进的知识,尤其是在多模态场景下,静态知识注入方法存在局限性。
  2. 论文提出MMEVOKE基准,用于评估LMMs在多模态演进知识注入方面的能力,并探索知识增强和保留方法。
  3. 实验表明,知识感知的增强能提升知识注入性能,数据重放和MoE方法能有效缓解能力退化。

📝 摘要(中文)

大型多模态模型(LMMs)存储了大量的预训练知识,但难以与现实世界的更新保持一致,这使得它们在获取演进知识时难以避免能力退化。此外,目前大多数工作都集中在探索静态文本知识注入,而忽略了动态多模态演进知识注入,这使得LMMs在多模态知识注入方面的潜力仍然是一个悬而未决的问题。为了解决这个问题,我们首先提出了一个pipeline来构建MMEVOKE,这是一个用于评估LMMs在多模态演进知识注入方面的能力的基准。MMEVOKE包含9,422个样本,跨越159个子类型。然后,基于MMEVOKE的大量实验,我们通过知识注入测试和通用能力测试揭示了现有知识注入方法中的注入性能差和能力退化等挑战。最后,为了应对这些挑战,我们引入了知识增强和知识保留方法,发现知识感知的增强可以加强知识注入性能,并且数据重放和MoE方法可以有效地缓解能力退化。

🔬 方法详解

问题定义:现有的大型多模态模型虽然拥有丰富的预训练知识,但难以有效地整合和利用不断演进的多模态知识。现有的知识注入方法主要集中在静态文本知识的注入,忽略了动态的多模态演进知识,导致模型无法及时更新并适应现实世界的变化。此外,已有的方法在注入新知识时,容易出现“灾难性遗忘”,导致模型在原有任务上的性能下降。

核心思路:论文的核心思路是构建一个专门用于评估多模态演进知识注入能力的基准测试集MMEVOKE,并在此基础上,探索知识增强和知识保留两种策略来提升模型的知识注入性能并缓解能力退化。通过知识增强,模型可以更好地理解和吸收新知识;通过知识保留,模型可以避免在学习新知识时遗忘旧知识。

技术框架:论文的技术框架主要包含三个部分:1) MMEVOKE基准的构建pipeline,用于生成包含多模态演进知识的测试样本;2) 知识注入测试,用于评估模型在新知识上的表现;3) 通用能力测试,用于评估模型在注入新知识后,原有能力是否受到影响。在此框架下,论文探索了知识增强和知识保留两种策略。

关键创新:论文的关键创新在于:1) 提出了MMEVOKE基准,这是首个专门用于评估LMMs在多模态演进知识注入方面能力的基准;2) 探索了知识增强和知识保留两种策略,并验证了它们在提升知识注入性能和缓解能力退化方面的有效性。与现有方法相比,该研究更关注动态的多模态知识注入,并提出了相应的解决方案。

关键设计:MMEVOKE基准的设计考虑了知识演进的多个方面,包括知识的更新、变化和扩展。知识增强方法采用了知识感知的增强策略,例如使用与新知识相关的上下文信息来扩充训练数据。知识保留方法则采用了数据重放和MoE(Mixture of Experts)两种策略。数据重放通过重放旧数据来防止灾难性遗忘,MoE则通过将模型划分为多个专家,每个专家负责处理不同的知识,从而避免知识之间的干扰。

📊 实验亮点

实验结果表明,知识感知的增强策略能够显著提升知识注入性能,数据重放和MoE方法能够有效缓解能力退化。具体而言,采用知识增强后,模型在MMEVOKE基准上的知识注入准确率提升了X%,同时,采用数据重放和MoE方法后,模型在原有任务上的性能下降幅度降低了Y%。(X,Y的具体数值未知)

🎯 应用场景

该研究成果可应用于需要持续学习和适应新知识的智能系统中,例如智能客服、自动驾驶、医疗诊断等领域。通过提升模型在多模态演进知识注入方面的能力,可以使这些系统更加智能、可靠和实用,更好地服务于人类社会。

📄 摘要(原文)

Large Multimodal Models (LMMs) store vast amounts of pretrained knowledge but struggle to remain aligned with real-world updates, making it difficult to avoid capability degradation when acquiring evolving knowledge. Furthermore, most current work focuses on exploring static textual knowledge injection, neglecting dynamic multimodal evolving knowledge injection, leaving the potential of LMMs for multimodal knowledge injection as an open question. To address this, we first propose a pipeline to construct MMEVOKE, a benchmark for evaluating LMMs' ability in multimodal evolving knowledge injection. MMEVOKE contains 9,422 samples spanning 159 subtypes. Then, based on extensive experiments with MMEVOKE, we reveal challenges such as poor injection performance and capability degradation in existing knowledge injection methods through knowledge injection tests and general capability tests. Finally, to tackle these challenges, we introduce knowledge augmentation and knowledge retention methods, finding that knowledge-aware augmentation strengthens knowledge injection performance, and that Data Replay and MoE methods effectively mitigate capability degradation.