M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?

作者: Haolong Yan, Kaijun Tan, Yeqing Shen, Xin Huang, Zheng Ge, Xiangyu Zhang, Si Li, Daxin Jiang

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-03-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出M-DocSum-Bench，评估LVLM在多模态文档摘要中的理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态文档摘要 大型视觉语言模型 基准测试 图像-文本理解 长程依赖 自动化摘要 细粒度评估

📋 核心要点

现有文档理解基准依赖问答形式，信息稀疏且难以覆盖长程依赖，无法有效评估LVLM对交错图像-文本的理解。
论文提出了M-DocSum-Bench，一个包含500篇arXiv论文的多模态文档摘要基准，要求模型生成交错图像-文本摘要。
实验表明，现有LVLM在长上下文和交错信息处理上存在困难，而提出的M-DocSum-7B模型取得了SOTA性能。

📝 摘要（中文）

本文研究了大型视觉语言模型(LVLM)中一个关键但未被充分探索的问题：LVLM是否真正理解文档中交错的图像-文本信息？现有的文档理解基准通常使用问答形式评估LVLM，这种形式信息稀疏，难以保证对长程依赖的覆盖。为了解决这个问题，我们引入了一个新的、具有挑战性的多模态文档摘要基准(M-DocSum-Bench)，它包含500篇高质量的arXiv论文，以及与人类偏好对齐的交错多模态摘要。M-DocSum-Bench是一个基于参考的生成任务，需要使用提供的参考图像生成交错的图像-文本摘要，从而同时评估在复杂多模态文档场景中的理解、推理、定位和摘要能力。为了促进这个基准，我们开发了一个自动化的框架来构建摘要，并提出了一种称为M-DocEval的细粒度评估方法。此外，我们通过使用多样化的指令和偏好数据进行渐进式两阶段训练，进一步开发了一个鲁棒的摘要基线，即M-DocSum-7B。在我们的M-DocSum-Bench上的大量结果表明，领先的LVLM难以在长而交错的上下文中保持连贯性并准确地整合信息，经常表现出对相似图像的混淆和缺乏鲁棒性。值得注意的是，与更大和闭源模型(包括GPT-4o、Gemini Pro、Claude-3.5-Sonnet和Qwen2.5-VL-72B等)相比，M-DocSum-7B实现了最先进的性能，证明了LVLM在改进交错图像-文本理解方面的潜力。代码、数据和模型可在https://github.com/stepfun-ai/M-DocSum-Bench上找到。

🔬 方法详解

问题定义：现有LVLM在处理多模态文档摘要任务时，难以真正理解文档中交错的图像-文本信息。现有的文档理解基准，如问答形式，信息稀疏，难以评估模型对长程依赖的理解能力。因此，需要一个更具挑战性的基准来评估LVLM在复杂多模态文档场景中的理解、推理、定位和摘要能力。

核心思路：论文的核心思路是构建一个高质量的多模态文档摘要基准(M-DocSum-Bench)，该基准包含真实的arXiv论文，并要求模型生成与人类偏好对齐的交错图像-文本摘要。通过这种方式，可以更全面地评估LVLM在理解、推理、定位和摘要方面的能力。同时，论文还提出了一个自动化的摘要构建框架和一个细粒度的评估方法(M-DocEval)。

技术框架：M-DocSum-Bench的构建包括以下几个主要步骤：1) 从arXiv收集论文，并提取文本和图像信息；2) 使用自动化框架生成候选摘要；3) 通过人工评估和筛选，得到高质量的参考摘要；4) 开发M-DocEval评估方法，用于细粒度地评估模型生成的摘要质量。此外，论文还提出了一个基于渐进式两阶段训练的摘要基线模型M-DocSum-7B。

关键创新：论文的关键创新点在于：1) 提出了一个新的多模态文档摘要基准(M-DocSum-Bench)，该基准更具挑战性，能够更全面地评估LVLM的理解能力；2) 开发了一个自动化的摘要构建框架，可以高效地生成高质量的参考摘要；3) 提出了一个细粒度的评估方法(M-DocEval)，可以更准确地评估模型生成的摘要质量。

关键设计：M-DocSum-7B模型采用渐进式两阶段训练：第一阶段使用多样化的指令数据进行训练，提高模型的泛化能力；第二阶段使用偏好数据进行训练，使模型生成的摘要更符合人类偏好。具体的网络结构和损失函数等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的领先LVLM在M-DocSum-Bench上表现不佳，难以保持连贯性并准确整合信息。然而，通过渐进式两阶段训练得到的M-DocSum-7B模型，在M-DocSum-Bench上取得了SOTA性能，甚至超越了更大的闭源模型，如GPT-4o、Gemini Pro等，证明了LVLM在改进交错图像-文本理解方面的巨大潜力。

🎯 应用场景

该研究成果可应用于自动文档摘要、信息检索、智能问答等领域。通过提升LVLM对多模态文档的理解能力，可以更有效地从海量文档中提取关键信息，为科研人员、决策者等提供更高效的信息服务。未来，该研究有望推动多模态信息处理技术的发展，促进人机交互的智能化。

📄 摘要（原文）

We investigate a critical yet under-explored question in Large Vision-Language Models (LVLMs): Do LVLMs genuinely comprehend interleaved image-text in the document? Existing document understanding benchmarks often assess LVLMs using question-answer formats, which are information-sparse and difficult to guarantee the coverage of long-range dependencies. To address this issue, we introduce a novel and challenging Multimodal Document Summarization Benchmark (M-DocSum-Bench), which comprises 500 high-quality arXiv papers, along with interleaved multimodal summaries aligned with human preferences. M-DocSum-Bench is a reference-based generation task and necessitates the generation of interleaved image-text summaries using provided reference images, thereby simultaneously evaluating capabilities in understanding, reasoning, localization, and summarization within complex multimodal document scenarios. To facilitate this benchmark, we develop an automated framework to construct summaries and propose a fine-grained evaluation method called M-DocEval. Moreover, we further develop a robust summarization baseline, i.e., M-DocSum-7B, by progressive two-stage training with diverse instruction and preference data. The extensive results on our M-DocSum-Bench reveal that the leading LVLMs struggle to maintain coherence and accurately integrate information within long and interleaved contexts, often exhibiting confusion between similar images and a lack of robustness. Notably, M-DocSum-7B achieves state-of-the-art performance compared to larger and closed-source models (including GPT-4o, Gemini Pro, Claude-3.5-Sonnet and Qwen2.5-VL-72B, etc.), demonstrating the potential of LVLMs for improved interleaved image-text understanding. The code, data, and models are available at https://github.com/stepfun-ai/M-DocSum-Bench.

M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理