Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing

作者: Baode Wang, Biao Wu, Weizhen Li, Meng Fang, Zuming Huang, Jun Huang, Haozhe Wang, Yanjie Liang, Ling Chen, Wei Chu, Yuan Qi

分类: cs.CL

发布日期: 2025-10-17 (更新: 2025-10-20)

备注: This submission (arXiv:2510.15349) was mistakenly uploaded as a new article. It was intended to replace our previous work arXiv:2506.03197. All subsequent updates will be made to arXiv:2506.03197

💡 一句话要点

提出LayoutRL框架和Infinity-Parser模型，解决扫描文档解析的泛化性问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文档解析 强化学习 布局理解 视觉-语言模型 扫描文档 信息抽取 数据集构建

📋 核心要点

现有文档解析方法泛化性差，尤其是在分布外数据上表现不佳，且高质量训练数据有限。
提出LayoutRL强化学习框架，通过综合奖励优化布局理解，提升模型在不同文档类型上的泛化能力。
构建Infinity-Doc-400K数据集，训练Infinity-Parser模型，并在多个基准测试中取得SOTA性能。

📝 摘要（中文）

本文针对扫描图像文档解析为结构化格式的挑战，提出了一种新的强化学习框架LayoutRL，旨在优化布局理解。该框架通过综合奖励函数，包括归一化编辑距离、段落计数准确率和阅读顺序保持，来提升模型性能。为了支持训练，作者构建了Infinity-Doc-400K数据集，并在此基础上训练了视觉-语言模型Infinity-Parser。实验结果表明，Infinity-Parser在OmniDocBench、olmOCR-Bench、PubTabNet和FinTabNet等基准测试中，均取得了最先进的性能，显著优于专门的文档解析系统和通用视觉-语言模型。代码、数据集和模型将被开源，以促进文档解析领域的可复现研究。

🔬 方法详解

问题定义：扫描文档解析旨在将图像转换为结构化数据，面临布局复杂、文档类型多样等挑战。现有监督微调方法难以泛化到新的文档类型，尤其是在训练数据分布之外的文档上表现较差。此外，高质量的布局感知解析训练数据也相对匮乏。

核心思路：论文的核心思路是利用强化学习来优化布局理解。通过设计合适的奖励函数，引导模型学习如何更好地理解文档的布局结构，从而提高解析的准确性和泛化能力。强化学习允许模型在没有大量标注数据的情况下，通过试错来学习最优策略。

技术框架：整体框架包含一个强化学习环境和一个视觉-语言模型（Infinity-Parser）。强化学习环境负责模拟文档解析过程，并根据模型的动作给出奖励。Infinity-Parser作为智能体，根据当前文档图像的状态选择动作（例如，识别文本区域、确定阅读顺序等），并根据环境的反馈更新策略。训练过程迭代进行，直到模型达到最优性能。

关键创新：关键创新在于LayoutRL强化学习框架，它将文档解析问题建模为一个序列决策过程，并通过综合奖励函数来优化布局理解。该奖励函数综合考虑了编辑距离、段落计数准确率和阅读顺序保持，从而能够更全面地评估模型的解析质量。此外，Infinity-Doc-400K数据集的构建也为训练高质量的文档解析模型提供了数据支持。

关键设计：奖励函数的设计是关键。归一化编辑距离衡量解析结果与真实值的差异，段落计数准确率确保模型能够正确识别文档的段落结构，阅读顺序保持则保证解析结果的逻辑一致性。具体参数设置和网络结构细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Infinity-Parser在OmniDocBench、olmOCR-Bench、PubTabNet和FinTabNet等多个基准测试中取得了最先进的性能。例如，在OmniDocBench上，Infinity-Parser的性能显著优于其他文档解析系统和通用视觉-语言模型，表明其具有强大的泛化能力和鲁棒性。具体的性能提升幅度在论文中有所展示，但此处不赘述。

🎯 应用场景

该研究成果可应用于自动化文档处理、信息抽取、知识图谱构建等领域。例如，可以用于自动解析财务报表、法律文件、学术论文等，从而提高工作效率，降低人工成本。未来，该技术有望进一步应用于移动端的文档扫描和解析，实现更加便捷的文档管理。

📄 摘要（原文）

Document parsing from scanned images into structured formats remains a significant challenge due to its complexly intertwined elements such as text paragraphs, figures, formulas, and tables. Existing supervised fine-tuning methods often struggle to generalize across diverse document types, leading to poor performance, particularly on out-of-distribution data. This issue is further exacerbated by the limited availability of high-quality training data for layout-aware parsing tasks. To address these challenges, we introduce LayoutRL, a reinforcement learning framework that optimizes layout understanding through composite rewards integrating normalized edit distance, paragraph count accuracy, and reading order preservation. To support this training, we construct the Infinity-Doc-400K dataset, which we use to train Infinity-Parser, a vision-language model demonstrating robust generalization across various domains. Extensive evaluations on benchmarks including OmniDocBench, olmOCR-Bench, PubTabNet, and FinTabNet show that Infinity-Parser consistently achieves state-of-the-art performance across a broad range of document types, languages, and structural complexities, substantially outperforming both specialized document parsing systems and general-purpose vision-language models. We will release our code, dataset, and model to facilitate reproducible research in document parsing.

Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理