Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs

📄 arXiv: 2505.14699v2 📥 PDF

作者: Miguel Lopez-Duran, Julian Fierrez, Aythami Morales, Ruben Tolosana, Oscar Delgado-Mohatar, Alvaro Ortigosa

分类: cs.CV, cs.CL, cs.LG

发布日期: 2025-05-12 (更新: 2025-07-28)

备注: 15 pages, 2 figures, accepted paper at The Fifth ICDAR International Workshop on Machine Learning


💡 一句话要点

提出基于图神经网络的文档布局分析方法,提升公共事务文档理解精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图神经网络 文档布局分析 多模态融合 公共事务文档 文本分类

📋 核心要点

  1. 现有文档布局分析方法难以处理数字原生文档的异构布局和不精确元数据。
  2. 利用图神经网络建模文档元素间的关系,结合文本和视觉信息进行多模态融合。
  3. 实验表明,基于k近邻图的GraphSAGE模型在公共事务文档数据集上表现最佳。

📝 摘要(中文)

本文针对数字原生PDF文档中自动分析文档布局的挑战,特别是文本和非文本元素排列的异构性以及PDF格式中文本元数据的不精确性,对图神经网络(GNN)架构在细粒度文本块布局分类任务上进行了基准测试。研究引入了两种图构建结构:k近邻图和全连接图,并通过预训练的文本和视觉模型生成节点特征,避免了手动特征工程。评估了三种实验框架:单模态(文本或视觉)、级联多模态和双分支多模态。评估了四种基础GNN模型,并与基线进行了比较。实验在一个包含超过20个来源(例如,区域和国家级官方公报)、37K PDF文档和总共441K页面的公共事务文档数据集上进行。结果表明,在双分支配置中,基于k近邻图的GraphSAGE实现了最高的每类和总体准确率,在某些来源上优于基线。这些发现证实了通过GNN利用局部布局关系和多模态融合对于分析原生数字文档布局的重要性。

🔬 方法详解

问题定义:论文旨在解决数字原生PDF文档中自动文档布局分析的问题。现有方法难以有效处理文档中异构的文本和非文本元素排列,以及PDF格式中文本元数据的不精确性,导致布局分类精度不高。

核心思路:论文的核心思路是利用图神经网络(GNN)来建模文档中各个元素之间的关系,并结合文本和视觉信息进行多模态融合,从而更准确地进行文档布局分类。通过图结构可以更好地捕捉文档的局部布局信息,而多模态融合可以利用不同模态信息的互补性。

技术框架:整体框架包括以下几个主要步骤:1) 图构建:根据文档中的文本块构建图结构,包括k近邻图和全连接图两种方式。2) 节点特征提取:利用预训练的文本和视觉模型提取每个文本块的特征,避免手动特征工程。3) 图神经网络建模:使用不同的GNN模型(如GraphSAGE、GCN等)对图结构进行学习,得到每个节点的表示。4) 分类:利用学习到的节点表示进行布局分类。论文评估了单模态、级联多模态和双分支多模态三种实验框架。

关键创新:论文的关键创新在于将图神经网络应用于文档布局分析,并提出了基于k近邻图的图构建方法。与传统的基于规则或手工特征的方法相比,GNN能够自动学习文档元素之间的关系,并更好地捕捉局部布局信息。此外,双分支多模态框架能够更好地融合文本和视觉信息。

关键设计:论文中使用了预训练的文本和视觉模型来提取节点特征,例如BERT等。图神经网络部分,选择了GraphSAGE、GCN等经典模型。在k近邻图的构建中,k值的选择是一个重要的参数。损失函数采用交叉熵损失函数,优化器采用Adam优化器。具体参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于k近邻图和双分支配置的GraphSAGE模型在公共事务文档数据集上取得了最佳性能,在某些来源上优于基线方法。这验证了GNN在文档布局分析中的有效性,并突出了局部布局关系和多模态融合的重要性。具体性能提升幅度在论文中有详细数据。

🎯 应用场景

该研究成果可应用于自动化文档处理、信息抽取、智能文档归档等领域。例如,可以自动识别政府公报、法律文件等公共事务文档的结构,提取关键信息,提高信息检索效率。未来可扩展到处理更复杂的文档类型,如合同、报告等。

📄 摘要(原文)

The automatic analysis of document layouts in digital-born PDF documents remains a challenging problem due to the heterogeneous arrangement of textual and nontextual elements and the imprecision of the textual metadata in the Portable Document Format. In this work, we benchmark Graph Neural Network (GNN) architectures for the task of fine-grained layout classification of text blocks from digital native documents. We introduce two graph construction structures: a k-closest-neighbor graph and a fully connected graph, and generate node features via pre-trained text and vision models, thus avoiding manual feature engineering. Three experimental frameworks are evaluated: single-modality (text or visual), concatenated multimodal, and dual-branch multimodal. We evaluated four foundational GNN models and compared them with the baseline. Our experiments are specifically conducted on a rich dataset of public affairs documents that includes more than 20 sources (e.g., regional and national-level official gazettes), 37K PDF documents, with 441K pages in total. Our results demonstrate that GraphSAGE operating on the k-closest-neighbor graph in a dual-branch configuration achieves the highest per-class and overall accuracy, outperforming the baseline in some sources. These findings confirm the importance of local layout relationships and multimodal fusion exploited through GNNs for the analysis of native digital document layouts.