Seeking and Updating with Live Visual Knowledge

📄 arXiv: 2504.05288v2 📥 PDF

作者: Mingyang Fu, Yuyang Peng, Dongping Chen, Zetong Zhou, Benlin Liu, Yao Wan, Zhou Zhao, Philip S. Yu, Ranjay Krishna

分类: cs.CV, cs.CL

发布日期: 2025-04-07 (更新: 2025-07-01)

备注: Preprint. Under Review


💡 一句话要点

提出LiveVQA数据集,用于评估和更新多模态大语言模型对实时视觉知识的理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 实时视觉知识 视觉问答 数据集 参数高效微调 知识更新 工具使用

📋 核心要点

  1. 多模态大语言模型受限于训练数据的截止日期,难以跟上快速演变的现实世界视觉信息。
  2. 提出LiveVQA数据集,通过最新的视觉信息来评估和更新多模态大语言模型。
  3. 实验表明,现有模型在处理超出知识范围的内容时性能显著下降,而工具使用和参数高效微调可以有效提升模型性能。

📝 摘要(中文)

本文提出了LiveVQA,这是一个首创的数据集,包含107,143个样本和12个类别的数据,专门用于支持实时视觉知识的寻求和更新研究。LiveVQA的数据来源于2024年4月至2025年5月的最新新闻文章、视频平台和学术出版物,旨在评估模型处理超出其知识范围的最新视觉信息的能力,以及现有方法如何帮助更新模型。对17个最先进的多模态大语言模型(MLLM)的全面基准测试表明,模型在处理超出知识截止日期的内容时存在显著的性能差距,而工具使用或代理视觉搜索框架平均提升了327%。此外,本文还探索了参数高效微调(PEFT)方法,以使用新的视觉知识更新MLLM,并深入研究了在更新MLLM时适配器容量和模型能力之间的关键平衡。所有实验数据集和源代码均已公开。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)的训练数据集通常具有时间截止点,导致它们无法处理和理解最新的视觉信息,例如实时新闻、社交媒体趋势和基础设施变化。现有的MLLMs在处理超出其知识截止日期范围的视觉内容时,性能会显著下降,无法准确回答相关问题。

核心思路:本文的核心思路是构建一个包含最新视觉信息的数据集LiveVQA,用于评估和提升MLLMs处理实时视觉知识的能力。通过对MLLMs进行基准测试,发现其在处理超出知识范围的内容时存在性能差距,并探索使用工具(如搜索引擎)和参数高效微调(PEFT)方法来更新MLLMs的知识。

技术框架:该研究主要包含以下几个阶段:1) 构建LiveVQA数据集,该数据集包含来自最新新闻、视频平台和学术出版物的视觉信息和对应的问题答案。2) 对17个最先进的MLLMs进行基准测试,评估它们在LiveVQA上的性能。3) 探索使用工具(如搜索引擎)来帮助MLLMs获取最新的视觉信息。4) 研究使用PEFT方法来更新MLLMs的知识,并分析适配器容量和模型能力之间的平衡。

关键创新:该研究的关键创新点在于:1) 提出了LiveVQA数据集,这是首个专门用于评估和更新MLLMs实时视觉知识的数据集。2) 探索了使用工具和PEFT方法来提升MLLMs处理最新视觉信息的能力。3) 深入分析了在更新MLLMs时适配器容量和模型能力之间的平衡。

关键设计:LiveVQA数据集包含107,143个样本,涵盖12个类别的数据,来源于2024年4月至2025年5月的最新信息。在PEFT方法中,研究探索了不同适配器容量对模型性能的影响,并分析了适配器容量和模型能力之间的关系。具体使用的PEFT方法和超参数设置在论文中有详细描述,但摘要中未明确给出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的多模态大语言模型在处理超出知识截止日期的视觉内容时性能显著下降。通过使用工具(如搜索引擎),模型的性能平均提升了327%。此外,参数高效微调(PEFT)方法也能够有效地更新模型的知识,但适配器容量和模型能力之间存在关键的平衡。

🎯 应用场景

该研究成果可应用于需要实时视觉信息理解的各种场景,例如:实时新闻分析、社交媒体监控、智能客服、自动驾驶、增强现实等。通过提升多模态大语言模型对最新视觉信息的理解能力,可以使其在这些应用中提供更准确、更及时的服务,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

The visual world around us constantly evolves, from real-time news and social media trends to global infrastructure changes visible through satellite imagery and augmented reality enhancements. However, Multimodal Large Language Models (MLLMs), which automate many tasks, struggle to stay current, limited by the cutoff dates in their fixed training datasets. To quantify this stagnation, we introduce LiveVQA, the first-of-its-kind dataset featuring 107,143 samples and 12 categories data specifically designed to support research in both seeking and updating with live visual knowledge. Drawing from recent news articles, video platforms, and academic publications in April 2024-May 2025, LiveVQA enables evaluation of how models handle latest visual information beyond their knowledge boundaries and how current methods help to update them. Our comprehensive benchmarking of 17 state-of-the-art MLLMs reveals significant performance gaps on content beyond knowledge cutoff, and tool-use or agentic visual seeking framework drastically gain an average of 327% improvement. Furthermore, we explore parameter-efficient fine-tuning (PEFT) methods to update MLLMs with new visual knowledge. We dive deeply to the critical balance between adapter capacity and model capability when updating MLLMs with new visual knowledge. All the experimental dataset and source code are publicly available at: https://livevqa.github.io.