MMLongCite: A Benchmark for Evaluating Fidelity of Long-Context Vision-Language Models

📄 arXiv: 2510.13276v1 📥 PDF

作者: Keyan Zhou, Zecheng Tang, Lingfeng Ming, Guanghao Zhou, Qiguang Chen, Dan Qiao, Zheming Yang, Libo Qin, Minghui Qiu, Juntao Li, Min Zhang

分类: cs.CV, cs.CL

发布日期: 2025-10-15


💡 一句话要点

提出MMLongCite基准,评估长上下文视觉语言模型的信息保真度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长上下文 视觉语言模型 多模态学习 信息保真度 评估基准

📋 核心要点

  1. 现有LVLMs上下文窗口虽已扩展,但长上下文利用率不足,多模态长上下文保真度评估缺失。
  2. 提出MMLongCite基准,包含8个任务,覆盖6个上下文长度区间,包含文本、图像和视频等多种模态。
  3. 实验表明现有LVLMs在长多模态上下文处理中保真度有限,并分析了上下文长度和关键内容位置的影响。

📝 摘要(中文)

大型视觉语言模型(LVLMs)的快速发展显著扩展了它们的上下文窗口。然而,扩展的上下文窗口并不能保证上下文的有效利用,这对实际应用提出了严峻的挑战。目前对此类长上下文保真度的评估主要集中在纯文本领域,而多模态评估仍然局限于短上下文。为了弥补这一差距,我们引入了MMLongCite,这是一个综合基准,旨在评估LVLMs在长上下文场景中的保真度。MMLongCite包含8个不同的任务,跨越6个上下文长度区间,并包含文本、图像和视频等多种模态。我们对最先进的LVLMs的评估表明,它们在处理长多模态上下文时的保真度有限。此外,我们还深入分析了上下文长度和关键内容的位置如何影响这些模型的保真度。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLMs)虽然扩展了上下文窗口,但无法有效利用长上下文信息,尤其是在多模态场景下。现有的长上下文评估主要集中在文本领域,缺乏对多模态(图像、视频等)长上下文的保真度评估,这限制了LVLMs在实际应用中的可靠性。

核心思路:MMLongCite的核心思路是构建一个综合性的多模态长上下文评估基准,通过设计一系列任务来衡量LVLMs在长上下文输入中能否准确地提取和利用关键信息。该基准旨在模拟真实场景,考察模型在不同上下文长度和不同模态下的信息保真度。

技术框架:MMLongCite基准包含以下几个主要组成部分: 1. 任务设计:设计了8个不同的任务,涵盖了问答、摘要、推理等多种类型,旨在全面评估LVLMs的上下文理解能力。 2. 上下文长度:覆盖6个不同的上下文长度区间,从短上下文到超长上下文,以考察模型在不同长度下的性能表现。 3. 多模态数据:包含文本、图像和视频等多种模态的数据,以评估模型在多模态场景下的信息整合能力。 4. 评估指标:采用多种评估指标,包括准确率、召回率、F1值等,以全面衡量模型的保真度。

关键创新:MMLongCite的关键创新在于其综合性和多模态性。与现有的长上下文评估基准相比,MMLongCite不仅考虑了文本信息,还包含了图像和视频等多模态信息,更贴近真实应用场景。此外,MMLongCite还覆盖了更广泛的上下文长度范围,能够更全面地评估LVLMs的性能。

关键设计:MMLongCite的任务设计考虑了多种因素,例如任务的难度、数据的多样性、评估指标的合理性等。每个任务都经过精心设计,以确保能够有效地评估LVLMs的上下文理解能力。此外,MMLongCite还提供了一套标准的评估流程和工具,方便研究人员进行实验和比较。

📊 实验亮点

对现有LVLMs在MMLongCite上的评估表明,它们在处理长多模态上下文时表现出有限的保真度。实验结果还表明,上下文长度和关键内容的位置对模型的性能有显著影响。例如,当关键信息位于上下文的末尾时,模型的表现通常会下降。具体性能数据和对比基线未在摘要中给出,需参考原文。

🎯 应用场景

MMLongCite基准的潜在应用领域包括智能客服、视频理解、医学诊断等。通过提高LVLMs在长上下文多模态场景下的信息保真度,可以提升这些应用的用户体验和可靠性。未来,该基准可以促进LVLMs在更广泛领域的应用,例如自动驾驶、智能制造等。

📄 摘要(原文)

The rapid advancement of large vision language models (LVLMs) has led to a significant expansion of their context windows. However, an extended context window does not guarantee the effective utilization of the context, posing a critical challenge for real-world applications. Current evaluations of such long-context faithfulness are predominantly focused on the text-only domain, while multimodal assessments remain limited to short contexts. To bridge this gap, we introduce MMLongCite, a comprehensive benchmark designed to evaluate the fidelity of LVLMs in long-context scenarios. MMLongCite comprises 8 distinct tasks spanning 6 context length intervals and incorporates diverse modalities, including text, images, and videos. Our evaluation of state-of-the-art LVLMs reveals their limited faithfulness in handling long multimodal contexts. Furthermore, we provide an in-depth analysis of how context length and the position of crucial content affect the faithfulness of these models.