COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

作者: Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen

分类: cs.CV, cs.AI

发布日期: 2026-04-30

💡 一句话要点

提出COHERENCE基准，用于评估MLLM在交错多模态上下文中细粒度图文对齐能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图文对齐 大型语言模型 基准测试 交错上下文

📋 核心要点

现有MLLM基准主要关注单图或多图理解，忽略了现实场景中交错图文上下文的细粒度对齐需求。
COHERENCE基准旨在评估MLLM在交错图文上下文中恢复细粒度图文对应关系的能力，填补了现有基准的空白。
COHERENCE包含来自四个领域的6161个高质量问题，并进行了六种类型的错误分析，可用于诊断MLLM的不足。

📝 摘要（中文）

近年来，多模态大型语言模型（MLLM）在各种多模态基准测试中取得了显著进展。然而，现有基准主要集中于单图像或多图像理解。在文档阅读等实际场景中，信息通常以交错的多模态上下文呈现。这要求MLLM不仅要识别单个图像的内容，还要识别相关的文本和视觉证据，建立它们之间细粒度的对齐关系，并基于上下文证据在交错的上下文中对这些对齐的信号进行推理。然而，目前仍然缺乏系统的基准来量化MLLM在交错图文上下文中细粒度的理解能力。为了填补这一空白，我们提出了COHERENCE，一个旨在评估MLLM在交错多模态上下文中恢复细粒度图文对应关系的基准。COHERENCE涵盖了来自四个代表性领域的交错图文内容，包含6,161个高质量问题。此外，我们进行了六种类型的错误分析，从而能够对交错图文理解中的失败进行细粒度的归因，从而确定当前MLLM中缺失的特定能力。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在处理交错图文上下文时，缺乏细粒度图文对齐和推理能力的问题。现有方法主要集中于单图或多图理解，忽略了真实场景中如图文档阅读等，信息以交错形式呈现的情况。这导致MLLM难以识别相关文本和视觉证据，建立它们之间的细粒度对应关系，并进行有效的上下文推理。

核心思路：论文的核心思路是构建一个专门的基准数据集COHERENCE，用于评估MLLM在交错多模态上下文中恢复细粒度图文对应关系的能力。通过设计高质量的问题，并进行细致的错误分析，可以诊断MLLM在处理此类任务时的不足，并为未来的模型改进提供指导。

技术框架：COHERENCE基准包含以下几个关键组成部分：1) 数据收集：从四个代表性领域（具体领域未在摘要中提及，未知）收集交错的图文数据。2) 问题生成：针对每个图文对，设计高质量的问题，旨在测试MLLM的细粒度图文对齐和推理能力。3) 评估指标：使用准确率等指标评估MLLM的性能。4) 错误分析：对MLLM的错误答案进行分类，分析其原因，从而诊断模型存在的不足。

关键创新：COHERENCE基准的主要创新在于：1) 关注交错多模态上下文：与现有基准不同，COHERENCE专门针对交错的图文上下文进行设计，更贴近真实应用场景。2) 细粒度图文对齐：COHERENCE的问题设计旨在测试MLLM的细粒度图文对齐能力，而非简单的图像或文本理解。3) 细致的错误分析：COHERENCE进行了六种类型的错误分析，可以更深入地了解MLLM的不足之处。

关键设计：摘要中没有提供关于数据集构建、问题生成、评估指标和错误分析的具体技术细节。这些细节可能在论文正文中详细描述，但根据摘要无法得知。例如，问题生成的具体方法（人工标注、自动生成等），评估指标的具体计算方式，以及六种错误类型的具体定义等，均为未知。

📊 实验亮点

COHERENCE基准包含6,161个高质量问题，涵盖四个代表性领域。通过对MLLM进行评估，并进行六种类型的错误分析，可以细粒度地分析MLLM在交错图文理解方面的不足。具体的性能数据、对比基线和提升幅度等信息未在摘要中提供，需要参考论文正文。

🎯 应用场景

COHERENCE基准的潜在应用领域包括文档理解、信息检索、教育辅助等。通过提高MLLM在交错图文上下文中的理解能力，可以提升其在这些领域的应用效果。例如，在文档理解中，MLLM可以更好地理解包含图表的报告；在信息检索中，可以更准确地检索包含图像的网页；在教育辅助中，可以更有效地辅助学生理解教材中的图文内容。未来，COHERENCE可以促进MLLM在多模态信息处理方面的进一步发展。

📄 摘要（原文）

In recent years, Multimodal Large Language Models (MLLMs) have achieved remarkable progress on a wide range of multimodal benchmarks. Despite these advances, most existing benchmarks mainly focus on single-image or multi-image comprehension. In real-world scenarios such as document reading, information is often presented as interleaved multimodel contexts. This requires MLLMs not only to recognize the content of individual images, but also to identify relevant textual and visual evidence, establish fine-grained alignments between them, and reason over these aligned signals in interleaved contexts based on contextual evidence.However, there is still a lack of systematic benchmarks for quantifying the fine-grained understanding ability of MLLMs in interleaved image-text contexts. To fill this gap, we propose COHERENCE, a benchmark designed to evaluate the ability of MLLMs to recover fine-grained image-text correspondences in interleaved multimodal contexts. COHERENCE covers interleaved image-text content from four representative domains and contains 6,161 high-quality questions. Moreover, we perform a six-type error analysis, enabling fine-grained attribution of failures in interleaved image-text understanding to the specific capabilities missing in current MLLMs.

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理