Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting

📄 arXiv: 2505.14059v1 📥 PDF

作者: Hao Feng, Shu Wei, Xiang Fei, Wei Shi, Yingdong Han, Lei Liao, Jinghui Lu, Binghong Wu, Qi Liu, Chunhui Lin, Jingqun Tang, Hao Liu, Can Huang

分类: cs.CV

发布日期: 2025-05-20

备注: Accepted to ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

Dolphin:通过异构锚点提示实现文档图像解析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档图像解析 多模态学习 异构锚点提示 并行解析 Transformer 布局分析 内容理解

📋 核心要点

  1. 现有文档图像解析方法存在集成开销大、效率低、布局结构易退化等问题。
  2. Dolphin模型采用分析-解析范式,先生成布局元素作为锚点,再并行解析内容。
  3. Dolphin在多个数据集上取得了SOTA性能,并具有轻量级架构和并行解析的优势。

📝 摘要(中文)

文档图像解析面临着文本段落、图表、公式和表格等复杂元素的交织难题。现有方法要么集成专门的专家模型,要么自回归地生成页面级内容,尽管性能尚可,但面临集成开销、效率瓶颈和布局结构退化等问题。为了解决这些限制,我们提出了Dolphin(通过异构锚点提示实现文档图像解析),这是一种新颖的多模态文档图像解析模型,遵循分析-解析范式。在第一阶段,Dolphin按阅读顺序生成一系列布局元素,这些异构元素作为锚点,并与特定任务的提示相结合,反馈给Dolphin,以便在第二阶段进行并行内容解析。为了训练Dolphin,我们构建了一个包含超过3000万个样本的大规模数据集,涵盖多粒度解析任务。通过对流行基准和自构建基准的全面评估,Dolphin在各种页面级和元素级设置中实现了最先进的性能,同时通过其轻量级架构和并行解析机制确保了卓越的效率。代码和预训练模型已公开发布。

🔬 方法详解

问题定义:文档图像解析旨在理解文档图像的结构和内容,面临的挑战在于文档元素(文本、图像、表格等)的复杂性和多样性。现有方法要么依赖于多个专家模型集成,导致开销大,要么采用自回归生成,效率较低,并且容易破坏文档的布局结构。

核心思路:Dolphin的核心思路是将文档图像解析分解为两个阶段:首先,分析文档的布局,生成一系列布局元素(锚点);然后,利用这些锚点和任务特定的提示,并行地解析每个元素的内容。这种分析-解析的范式能够有效地解耦布局和内容解析,提高效率和准确性。

技术框架:Dolphin模型主要包含两个阶段:1) 布局分析阶段:模型接收文档图像作为输入,生成一系列布局元素,例如文本段落、标题、表格等。这些元素按照阅读顺序排列,作为后续内容解析的锚点。2) 内容解析阶段:模型利用第一阶段生成的布局元素和任务特定的提示,并行地解析每个元素的内容。例如,对于文本段落,模型可以进行OCR识别和文本理解;对于表格,模型可以进行结构识别和数据提取。

关键创新:Dolphin的关键创新在于异构锚点提示机制。通过将布局元素作为锚点,并结合任务特定的提示,模型能够更好地理解文档的结构和内容,从而提高解析的准确性和效率。此外,Dolphin的并行解析机制能够显著提高处理速度,使其能够处理大规模的文档图像数据。

关键设计:Dolphin使用Transformer架构作为其核心模型,并针对文档图像解析任务进行了优化。具体来说,模型采用了多模态融合技术,将图像特征和文本特征进行融合,以更好地理解文档的内容。此外,模型还采用了大规模预训练技术,利用包含3000万样本的数据集进行训练,从而提高了模型的泛化能力。损失函数方面,可能采用了交叉熵损失或者其他适合序列生成任务的损失函数。具体的网络结构细节和参数设置在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dolphin在多个文档图像解析基准测试中取得了最先进的性能。具体而言,在页面级和元素级解析任务中,Dolphin的性能均优于现有方法。论文中提到,Dolphin通过轻量级架构和并行解析机制,实现了卓越的效率,但具体的性能提升数据(例如F1值、准确率等)需要参考论文原文。

🎯 应用场景

Dolphin模型在多个领域具有广泛的应用前景,例如自动化文档处理、信息抽取、智能办公、数字图书馆等。它可以用于自动识别和提取文档中的关键信息,提高工作效率,降低人工成本。此外,Dolphin还可以应用于文档图像的检索和分析,为用户提供更加智能化的信息服务。

📄 摘要(原文)

Document image parsing is challenging due to its complexly intertwined elements such as text paragraphs, figures, formulas, and tables. Current approaches either assemble specialized expert models or directly generate page-level content autoregressively, facing integration overhead, efficiency bottlenecks, and layout structure degradation despite their decent performance. To address these limitations, we present \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g}), a novel multimodal document image parsing model following an analyze-then-parse paradigm. In the first stage, Dolphin generates a sequence of layout elements in reading order. These heterogeneous elements, serving as anchors and coupled with task-specific prompts, are fed back to Dolphin for parallel content parsing in the second stage. To train Dolphin, we construct a large-scale dataset of over 30 million samples, covering multi-granularity parsing tasks. Through comprehensive evaluations on both prevalent benchmarks and self-constructed ones, Dolphin achieves state-of-the-art performance across diverse page-level and element-level settings, while ensuring superior efficiency through its lightweight architecture and parallel parsing mechanism. The code and pre-trained models are publicly available at https://github.com/ByteDance/Dolphin