Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing

📄 arXiv: 2510.15349v2 📥 PDF

作者: Baode Wang, Biao Wu, Weizhen Li, Meng Fang, Zuming Huang, Jun Huang, Haozhe Wang, Yanjie Liang, Ling Chen, Wei Chu, Yuan Qi

分类: cs.CL

发布日期: 2025-10-17 (更新: 2025-10-20)

备注: This submission (arXiv:2510.15349) was mistakenly uploaded as a new article. It was intended to replace our previous work arXiv:2506.03197. All subsequent updates will be made to arXiv:2506.03197


💡 一句话要点

提出LayoutRL框架和Infinity-Parser模型,解决扫描文档解析的泛化性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文档解析 强化学习 布局理解 视觉-语言模型 扫描文档 信息抽取 数据集构建

📋 核心要点

  1. 现有文档解析方法泛化性差,尤其是在分布外数据上表现不佳,且高质量训练数据有限。
  2. 提出LayoutRL强化学习框架,通过综合奖励优化布局理解,提升模型在不同文档类型上的泛化能力。
  3. 构建Infinity-Doc-400K数据集,训练Infinity-Parser模型,并在多个基准测试中取得SOTA性能。

📝 摘要(中文)

本文针对扫描图像文档解析为结构化格式的挑战,提出了一种新的强化学习框架LayoutRL,旨在优化布局理解。该框架通过综合奖励函数,包括归一化编辑距离、段落计数准确率和阅读顺序保持,来提升模型性能。为了支持训练,作者构建了Infinity-Doc-400K数据集,并在此基础上训练了视觉-语言模型Infinity-Parser。实验结果表明,Infinity-Parser在OmniDocBench、olmOCR-Bench、PubTabNet和FinTabNet等基准测试中,均取得了最先进的性能,显著优于专门的文档解析系统和通用视觉-语言模型。代码、数据集和模型将被开源,以促进文档解析领域的可复现研究。

🔬 方法详解

问题定义:扫描文档解析旨在将图像转换为结构化数据,面临布局复杂、文档类型多样等挑战。现有监督微调方法难以泛化到新的文档类型,尤其是在训练数据分布之外的文档上表现较差。此外,高质量的布局感知解析训练数据也相对匮乏。

核心思路:论文的核心思路是利用强化学习来优化布局理解。通过设计合适的奖励函数,引导模型学习如何更好地理解文档的布局结构,从而提高解析的准确性和泛化能力。强化学习允许模型在没有大量标注数据的情况下,通过试错来学习最优策略。

技术框架:整体框架包含一个强化学习环境和一个视觉-语言模型(Infinity-Parser)。强化学习环境负责模拟文档解析过程,并根据模型的动作给出奖励。Infinity-Parser作为智能体,根据当前文档图像的状态选择动作(例如,识别文本区域、确定阅读顺序等),并根据环境的反馈更新策略。训练过程迭代进行,直到模型达到最优性能。

关键创新:关键创新在于LayoutRL强化学习框架,它将文档解析问题建模为一个序列决策过程,并通过综合奖励函数来优化布局理解。该奖励函数综合考虑了编辑距离、段落计数准确率和阅读顺序保持,从而能够更全面地评估模型的解析质量。此外,Infinity-Doc-400K数据集的构建也为训练高质量的文档解析模型提供了数据支持。

关键设计:奖励函数的设计是关键。归一化编辑距离衡量解析结果与真实值的差异,段落计数准确率确保模型能够正确识别文档的段落结构,阅读顺序保持则保证解析结果的逻辑一致性。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

Infinity-Parser在OmniDocBench、olmOCR-Bench、PubTabNet和FinTabNet等多个基准测试中取得了最先进的性能。例如,在OmniDocBench上,Infinity-Parser的性能显著优于其他文档解析系统和通用视觉-语言模型,表明其具有强大的泛化能力和鲁棒性。具体的性能提升幅度在论文中有所展示,但此处不赘述。

🎯 应用场景

该研究成果可应用于自动化文档处理、信息抽取、知识图谱构建等领域。例如,可以用于自动解析财务报表、法律文件、学术论文等,从而提高工作效率,降低人工成本。未来,该技术有望进一步应用于移动端的文档扫描和解析,实现更加便捷的文档管理。

📄 摘要(原文)

Document parsing from scanned images into structured formats remains a significant challenge due to its complexly intertwined elements such as text paragraphs, figures, formulas, and tables. Existing supervised fine-tuning methods often struggle to generalize across diverse document types, leading to poor performance, particularly on out-of-distribution data. This issue is further exacerbated by the limited availability of high-quality training data for layout-aware parsing tasks. To address these challenges, we introduce LayoutRL, a reinforcement learning framework that optimizes layout understanding through composite rewards integrating normalized edit distance, paragraph count accuracy, and reading order preservation. To support this training, we construct the Infinity-Doc-400K dataset, which we use to train Infinity-Parser, a vision-language model demonstrating robust generalization across various domains. Extensive evaluations on benchmarks including OmniDocBench, olmOCR-Bench, PubTabNet, and FinTabNet show that Infinity-Parser consistently achieves state-of-the-art performance across a broad range of document types, languages, and structural complexities, substantially outperforming both specialized document parsing systems and general-purpose vision-language models. We will release our code, dataset, and model to facilitate reproducible research in document parsing.