Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training

📄 arXiv: 2603.23885v1 📥 PDF

作者: Gengluo Li, Chengquan Zhang, Yupu Liang, Huawen Shen, Yaping Zhang, Pengyuan Lyu, Weinong Wang, Xingyu Wan, Gangyan Zeng, Han Hu, Can Ma, Yu Zhou

分类: cs.CV

发布日期: 2026-03-25

备注: Accepted to CVPR 2026


💡 一句话要点

提出数据-训练协同框架,解决真实场景下文档解析难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档解析 端到端学习 数据合成 多模态大语言模型 结构化输出 文档理解 真实场景 鲁棒性

📋 核心要点

  1. 现有文档解析方法依赖精确的布局分析,在真实场景和非标准条件下表现不佳,且缺乏高质量的端到端训练数据。
  2. 论文提出逼真场景合成策略和文档感知训练方法,协同提升模型在复杂场景下的文档解析能力和结构化输出的准确性。
  3. 实验表明,该方法在真实场景文档解析任务上取得了显著的性能提升,并在Wild-OmniDocBench基准上验证了其鲁棒性。

📝 摘要(中文)

本文提出了一种数据-训练协同设计框架,用于实现鲁棒的端到端文档解析。针对现有方法依赖精确布局分析、易在非标准条件下失效的问题,以及缺乏大规模高质量文档级端到端解析数据和结构感知训练策略导致的重复、幻觉和结构不一致预测等问题,本文利用逼真场景合成策略,通过组合布局模板和丰富的文档元素,构建大规模、结构多样的文档级端到端监督数据。同时,引入文档感知训练方法,采用渐进学习和结构token优化,增强结构保真度和解码稳定性。此外,构建了Wild-OmniDocBench基准,用于评估真实场景下的鲁棒性。实验结果表明,集成到10亿参数的多模态大语言模型后,该方法在扫描/数字文档和真实场景捕获的文档中均实现了卓越的准确性和鲁棒性。所有模型、数据合成流程和基准都将公开发布。

🔬 方法详解

问题定义:现有文档解析方法,特别是基于级联流程的方法,依赖于精确的布局分析,这使得它们在处理随意拍摄或非标准条件下的文档时容易失败。端到端方法虽然减轻了这种依赖,但由于缺乏大规模、高质量的文档级端到端解析数据,以及缺乏结构感知的训练策略,仍然存在重复、幻觉和结构不一致的预测问题。

核心思路:论文的核心思路是数据和训练协同设计。通过逼真的场景合成来生成大规模、结构多样的全页端到端监督数据,并结合文档感知的训练方法,从而提高模型在真实场景下的文档解析能力和结构化输出的准确性。这种方法避免了对人工标注数据的过度依赖,并能够更好地适应真实世界文档的多样性和复杂性。

技术框架:该框架主要包含两个核心模块:逼真场景合成(Realistic Scene Synthesis)和文档感知训练(Document-Aware Training Recipe)。逼真场景合成模块负责生成大规模的合成数据,文档感知训练模块则利用这些数据来训练模型。Wild-OmniDocBench基准用于评估模型在真实场景下的性能。整体流程是先使用逼真场景合成模块生成训练数据,然后使用文档感知训练模块训练模型,最后在Wild-OmniDocBench基准上评估模型性能。

关键创新:论文的关键创新在于数据和训练的协同设计。逼真场景合成策略能够生成大规模、结构多样的全页端到端监督数据,这解决了现有方法缺乏高质量训练数据的问题。文档感知训练方法,包括渐进学习和结构token优化,能够增强模型的结构保真度和解码稳定性,这解决了现有方法容易产生重复、幻觉和结构不一致预测的问题。

关键设计:在逼真场景合成方面,关键在于如何设计布局模板和文档元素,以保证合成数据的多样性和真实性。在文档感知训练方面,渐进学习策略逐步增加训练难度,结构token优化则侧重于提高模型对文档结构的理解能力。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述,但此处未提供具体数值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法集成到10亿参数的多模态大语言模型后,在扫描/数字文档和真实场景捕获的文档中均实现了卓越的准确性和鲁棒性。具体性能数据和对比基线在论文中进行了详细描述,表明该方法在真实场景文档解析任务上取得了显著的性能提升。

🎯 应用场景

该研究成果可广泛应用于自动化文档处理、信息提取、办公自动化等领域。例如,可以用于自动解析发票、合同、报告等文档,提取关键信息,提高工作效率。未来,该技术有望应用于移动端的文档扫描和解析,实现随时随地的文档处理。

📄 摘要(原文)

Document parsing has recently advanced with multimodal large language models (MLLMs) that directly map document images to structured outputs. Traditional cascaded pipelines depend on precise layout analysis and often fail under casually captured or non-standard conditions. Although end-to-end approaches mitigate this dependency, they still exhibit repetitive, hallucinated, and structurally inconsistent predictions - primarily due to the scarcity of large-scale, high-quality full-page (document-level) end-to-end parsing data and the lack of structure-aware training strategies. To address these challenges, we propose a data-training co-design framework for robust end-to-end document parsing. A Realistic Scene Synthesis strategy constructs large-scale, structurally diverse full-page end-to-end supervision by composing layout templates with rich document elements, while a Document-Aware Training Recipe introduces progressive learning and structure-token optimization to enhance structural fidelity and decoding stability. We further build Wild-OmniDocBench, a benchmark derived from real-world captured documents for robustness evaluation. Integrated into a 1B-parameter MLLM, our method achieves superior accuracy and robustness across both scanned/digital and real-world captured scenarios. All models, data synthesis pipelines, and benchmarks will be publicly released to advance future research in document understanding.