LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis

作者: Inbum Heo, Taewook Hwang, Jeesu Jung, Sangkeun Jung

分类: cs.CV, cs.CL

发布日期: 2026-03-18

备注: 8pages

DOI: 10.1109/BigComp68355.2026.00055

💡 一句话要点

提出LED基准，用于评估文档分析中版面错误检测的结构推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文档版面分析 错误检测 结构推理 多模态模型 基准测试

📋 核心要点

现有文档版面分析方法在处理结构性错误（如区域合并、分割和遗漏）时存在不足，传统评估指标无法有效捕捉这些逻辑不一致。
提出LED基准，通过定义八种标准化错误类型和相应的注入算法，实现对文档版面分析模型结构推理能力的评估。
实验结果表明，LED能够细粒度地评估模型的结构理解能力，揭示不同模态和架构的弱点，为模型改进提供指导。

📝 摘要（中文）

大型语言模型（LLMs）和大型多模态模型（LMMs）的最新进展改进了文档版面分析（DLA），但区域合并、分割和遗漏等结构性错误仍然存在。传统的基于重叠的指标（例如，IoU，mAP）无法捕捉到这种逻辑不一致性。为了克服这个限制，我们提出了版面错误检测（LED），这是一个评估DLA预测中超出表面精度之外的结构推理能力的基准。LED定义了八种标准化错误类型（缺失、幻觉、大小错误、分割、合并、重叠、重复和错误分类），并为现实的错误模拟提供了定量规则和注入算法。使用这些定义，我们构建了LED-Dataset并设计了三个评估任务：文档级错误检测、文档级错误类型分类和元素级错误类型分类。与最先进的多模态模型进行的实验表明，LED能够对结构理解进行细粒度和可解释的评估，揭示了跨模态和架构的明显弱点。总而言之，LED建立了一个统一且可解释的基准，用于诊断文档理解模型的结构鲁棒性和推理能力。

🔬 方法详解

问题定义：论文旨在解决文档版面分析（DLA）中结构性错误难以有效检测和评估的问题。现有基于重叠的评估指标（如IoU、mAP）无法准确反映区域合并、分割、遗漏等逻辑错误，导致模型在结构理解方面存在缺陷。

核心思路：论文的核心思路是构建一个专门用于评估DLA模型结构推理能力的基准——LED。LED通过定义一套标准化的错误类型，并提供相应的错误注入算法，从而能够系统地评估模型对各种结构性错误的检测和分类能力。这种方法超越了传统的表面精度评估，更关注模型的逻辑一致性和结构理解能力。

技术框架：LED基准主要包含以下几个组成部分：1）错误类型定义：定义了八种常见的版面错误类型，包括缺失、幻觉、大小错误、分割、合并、重叠、重复和错误分类。2）错误注入算法：为每种错误类型设计了相应的注入算法，用于在文档版面中模拟真实的错误情况。3）LED-Dataset：基于错误类型定义和注入算法，构建了一个包含各种错误类型的文档数据集。4）评估任务：设计了三个评估任务，包括文档级错误检测、文档级错误类型分类和元素级错误类型分类。

关键创新：LED的关键创新在于其对结构性错误的系统化定义和评估方法。与传统的基于重叠的评估指标不同，LED能够更准确地反映模型在结构理解方面的能力。此外，LED提供的错误注入算法可以用于生成各种类型的错误数据，从而为模型的训练和评估提供更全面的支持。

关键设计：LED的关键设计包括：1）标准化的错误类型定义，确保评估的一致性和可比性。2）可控的错误注入算法，允许用户根据需要生成不同类型的错误数据。3）多层次的评估任务，从文档级到元素级，全面评估模型的结构理解能力。具体的参数设置和网络结构取决于所评估的DLA模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的多模态模型在LED基准上表现出明显的结构理解弱点。例如，某些模型在处理合并和分割错误时表现较差，而另一些模型则容易产生幻觉。LED能够清晰地揭示这些弱点，并为模型的改进提供有价值的反馈。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

LED基准可应用于文档智能、自动化办公、信息抽取等领域。通过评估和改进文档版面分析模型的结构推理能力，可以提高文档处理的准确性和效率，减少人工干预，提升用户体验。未来，LED可以扩展到更多类型的文档和更复杂的版面结构。

📄 摘要（原文）

Recent advances in Large Language Models (LLMs) and Large Multimodal Models (LMMs) have improved Document Layout Analysis (DLA), yet structural errors such as region merging, splitting, and omission remain persistent. Conventional overlap-based metrics (e.g., IoU, mAP) fail to capture such logical inconsistencies. To overcome this limitation, we propose Layout Error Detection (LED), a benchmark that evaluates structural reasoning in DLA predictions beyond surface-level accuracy. LED defines eight standardized error types (Missing, Hallucination, Size Error, Split, Merge, Overlap, Duplicate, and Misclassification) and provides quantitative rules and injection algorithms for realistic error simulation. Using these definitions, we construct LED-Dataset and design three evaluation tasks: document-level error detection, document-level error-type classification, and element-level error-type classification. Experiments with state-of-the-art multimodal models show that LED enables fine-grained and interpretable assessment of structural understanding, revealing clear weaknesses across modalities and architectures. Overall, LED establishes a unified and explainable benchmark for diagnosing the structural robustness and reasoning capability of document understanding models.

LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理