ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction

📄 arXiv: 2601.05470v1 📥 PDF

作者: Tingwei Xie, Jinxin He, Yonghong Song

分类: cs.CV, cs.CL

发布日期: 2026-01-09

备注: 10 pages, 4 figures, 4 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出ROAP流水线,通过阅读顺序和注意力先验优化版面Transformer,提升关键信息抽取效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 关键信息抽取 版面分析 多模态Transformer 阅读顺序建模 注意力机制

📋 核心要点

  1. 现有方法缺乏对文档逻辑阅读顺序的显式建模,且视觉token干扰文本语义理解,限制了多模态Transformer的性能。
  2. ROAP流水线通过AXG-Tree提取阅读序列,并利用RO-RPB和TT-Prior优化注意力机制,无需改变预训练骨干网络。
  3. 在FUNSD和CORD数据集上的实验表明,ROAP能够显著提升LayoutLMv3和GeoLayoutLM等模型的性能。

📝 摘要(中文)

多模态Transformer在富视觉文档理解(VrDU)中的效能受到两个固有局限的严重制约:缺乏对逻辑阅读顺序的显式建模,以及视觉token的干扰削弱了对文本语义的注意力。为了解决这些挑战,本文提出ROAP,一个轻量级且架构无关的流水线,旨在优化版面Transformer中的注意力分布,而无需改变其预训练的骨干网络。该流水线首先采用自适应XY间隙(AXG-Tree)从复杂版面中稳健地提取分层阅读序列。然后,通过阅读顺序感知相对位置偏差(RO-RPB)将这些序列集成到注意力机制中。此外,引入文本Token子块注意力先验(TT-Prior)以自适应地抑制视觉噪声并增强细粒度的文本-文本交互。在FUNSD和CORD基准上的大量实验表明,ROAP始终如一地提高了包括LayoutLMv3和GeoLayoutLM在内的代表性骨干网络的性能。这些发现证实,显式建模阅读逻辑和调节模态干扰对于稳健的文档理解至关重要,为复杂版面分析提供了一个可扩展的解决方案。实现代码将在https://github.com/KevinYuLei/ROAP发布。

🔬 方法详解

问题定义:现有基于Transformer的文档理解模型,如LayoutLM系列,在处理复杂版面时,忽略了文档固有的阅读顺序逻辑,并且视觉信息容易干扰模型对文本语义的理解,导致关键信息抽取性能下降。现有方法难以有效建模阅读顺序和抑制视觉噪声。

核心思路:ROAP的核心思路是通过显式地建模文档的阅读顺序,并引入注意力先验来抑制视觉噪声,从而优化Layout Transformer的注意力分布。通过阅读顺序感知的相对位置偏差(RO-RPB)将阅读顺序信息融入注意力机制,并利用文本Token子块注意力先验(TT-Prior)增强文本之间的交互,减少视觉信息的干扰。

技术框架:ROAP是一个轻量级的流水线,可以集成到现有的Layout Transformer架构中。它主要包含两个模块:1) Adaptive-XY-Gap (AXG-Tree):用于从文档版面中提取分层的阅读顺序序列。2) Reading-Order-Aware Relative Position Bias (RO-RPB) 和 Textual-Token Sub-block Attention Prior (TT-Prior):用于将阅读顺序信息和文本注意力先验融入到Transformer的注意力机制中。整个流程不改变预训练的骨干网络。

关键创新:ROAP的关键创新在于:1) 提出了AXG-Tree算法,能够鲁棒地提取文档的分层阅读顺序。2) 设计了RO-RPB和TT-Prior,能够有效地将阅读顺序信息和文本注意力先验融入到Transformer的注意力机制中,从而优化注意力分布,提升关键信息抽取性能。与现有方法相比,ROAP更加轻量级且架构无关,可以方便地集成到不同的Layout Transformer模型中。

关键设计:AXG-Tree通过自适应地调整X和Y方向的间隙来构建阅读顺序树。RO-RPB通过计算文本token之间的相对位置偏差,并根据阅读顺序进行调整,从而将阅读顺序信息融入到注意力权重中。TT-Prior通过对文本token之间的注意力权重进行增强,并对视觉token之间的注意力权重进行抑制,从而减少视觉信息的干扰。损失函数采用标准的交叉熵损失函数。

📊 实验亮点

ROAP在FUNSD和CORD数据集上进行了广泛的实验,结果表明,ROAP能够显著提升LayoutLMv3和GeoLayoutLM等模型的性能。例如,在FUNSD数据集上,ROAP将LayoutLMv3的F1-score提升了超过2个百分点。这些结果验证了ROAP在建模阅读顺序和抑制视觉噪声方面的有效性。

🎯 应用场景

ROAP可应用于各种需要从视觉文档中提取关键信息的场景,例如财务报表分析、合同信息提取、发票处理、表格识别等。该方法能够提升文档理解的准确性和效率,降低人工成本,具有广泛的应用前景。未来可以进一步探索ROAP在更复杂的文档版面和更多模态信息融合方面的应用。

📄 摘要(原文)

The efficacy of Multimodal Transformers in visually-rich document understanding (VrDU) is critically constrained by two inherent limitations: the lack of explicit modeling for logical reading order and the interference of visual tokens that dilutes attention on textual semantics. To address these challenges, this paper presents ROAP, a lightweight and architecture-agnostic pipeline designed to optimize attention distributions in Layout Transformers without altering their pre-trained backbones. The proposed pipeline first employs an Adaptive-XY-Gap (AXG-Tree) to robustly extract hierarchical reading sequences from complex layouts. These sequences are then integrated into the attention mechanism via a Reading-Order-Aware Relative Position Bias (RO-RPB). Furthermore, a Textual-Token Sub-block Attention Prior (TT-Prior) is introduced to adaptively suppress visual noise and enhance fine-grained text-text interactions. Extensive experiments on the FUNSD and CORD benchmarks demonstrate that ROAP consistently improves the performance of representative backbones, including LayoutLMv3 and GeoLayoutLM. These findings confirm that explicitly modeling reading logic and regulating modality interference are critical for robust document understanding, offering a scalable solution for complex layout analysis. The implementation code will be released at https://github.com/KevinYuLei/ROAP.