Can MLLMs "Read" What is Missing?

作者: Jindi Guo, Xi Fang, Chaozheng Huang

分类: cs.AI

发布日期: 2026-04-23

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出MMTR-Bench基准，评估多模态大语言模型从视觉上下文重建文本的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉上下文理解 文本重建 基准测试 文档理解

📋 核心要点

现有方法依赖显式提示，难以直接评估MLLM从视觉信息重建文本的内在能力。
MMTR-Bench通过掩码文本重建任务，隔离指令遵循能力，专注评估视觉上下文理解。
实验表明，现有MLLM在MMTR-Bench上表现不佳，尤其在长文本重建方面面临挑战。

📝 摘要（中文）

本文介绍MMTR-Bench，一个旨在评估多模态大语言模型（MLLM）直接从视觉上下文重建被掩盖文本的内在能力的基准。与传统的问答任务不同，MMTR-Bench消除了显式提示，要求模型从单页或多页输入中恢复被掩盖的文本，涵盖文档和网页等真实世界领域。这种设计将重建任务与指令遵循能力隔离开来，从而能够直接评估模型的布局理解、视觉基础和知识整合能力。MMTR-Bench包含2,771个测试样本，跨越多种语言和不同的目标长度。为了应对这种多样性，我们提出了一种level-aware评估协议。在代表性MLLM上的实验表明，该基准测试提出了一个重大挑战，特别是对于句子和段落级别的重建。

🔬 方法详解

问题定义：论文旨在评估多模态大语言模型（MLLM）仅基于视觉上下文重建被掩盖文本的能力。现有方法通常依赖于明确的指令或问题提示，这使得评估模型内在的视觉理解和知识整合能力变得困难。此外，现有基准测试可能无法充分覆盖真实世界场景中复杂布局和多语言文本的挑战。

核心思路：论文的核心思路是设计一个无需显式提示的掩码文本重建任务。通过移除指令，模型必须完全依赖其对视觉信息的理解（例如，文档布局、文本样式）以及内部知识来恢复被掩盖的文本。这种设计能够更直接地评估模型的视觉基础、布局理解和知识整合能力。

技术框架：MMTR-Bench基准测试包含以下关键组成部分：1) 数据集：包含2,771个测试样本，涵盖文档和网页等真实世界领域，并包含多种语言和不同长度的目标文本。2) 评估协议：提出了一种level-aware评估协议，该协议考虑了目标文本的长度和复杂性，从而能够更细粒度地评估模型的性能。3) 基线模型：在代表性的MLLM上进行了实验，以展示基准测试的挑战性并为未来的研究提供参考。

关键创新：MMTR-Bench的关键创新在于其评估范式，即无需显式提示的掩码文本重建。这种范式能够更直接地评估MLLM的内在能力，而不会受到指令遵循能力的干扰。此外，该基准测试的多样性（多语言、不同长度的目标文本）使其能够更全面地评估模型的性能。

关键设计：MMTR-Bench的数据集构建过程包括从真实世界来源收集文档和网页，然后随机掩盖文本片段。掩盖的文本片段长度不同，包括单词、句子和段落。评估指标包括精确匹配率（Exact Match）和F1分数，用于衡量模型重建文本的准确性。Level-aware评估协议根据目标文本的长度和复杂性将样本分为不同的级别，并分别计算每个级别的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有MLLM在MMTR-Bench上表现出显著的性能差距，尤其是在句子和段落级别的重建任务中。例如，在长文本重建任务中，模型的精确匹配率显著低于单词级别的重建。这表明现有模型在理解复杂布局和整合视觉信息方面仍存在挑战，MMTR-Bench可以作为未来模型改进的重要评估工具。

🎯 应用场景

该研究成果可应用于提升文档理解、网页内容分析、信息抽取等领域中多模态大语言模型的性能。通过更准确地理解视觉上下文，模型可以更好地处理复杂文档和网页，从而提高信息检索、自动摘要和机器翻译等任务的效率和准确性。未来，该研究可以促进开发更强大的多模态智能系统。

📄 摘要（原文）

We introduce MMTR-Bench, a benchmark designed to evaluate the intrinsic ability of Multimodal Large Language Models (MLLMs) to reconstruct masked text directly from visual context. Unlike conventional question-answering tasks, MMTR-Bench eliminates explicit prompts, requiring models to recover masked text from single- or multi-page inputs across real-world domains such as documents and webpages. This design isolates the reconstruction task from instruction-following abilities, enabling a direct assessment of a model's layout understanding, visual grounding, and knowledge integration. MMTR-Bench comprises 2,771 test samples spanning multiple languages and varying target lengths. To account for this diversity, we propose a level-aware evaluation protocol. Experiments on representative MLLMs show that the benchmark poses a significant challenge, especially for sentence- and paragraph-level reconstruction. The homepage is available at https://mmtr-bench-dataset.github.io/MMTR-Bench/.

Can MLLMs "Read" What is Missing?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理