Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting

作者: Hao Feng, Shu Wei, Xiang Fei, Wei Shi, Yingdong Han, Lei Liao, Jinghui Lu, Binghong Wu, Qi Liu, Chunhui Lin, Jingqun Tang, Hao Liu, Can Huang

分类: cs.CV

发布日期: 2025-05-20

备注: Accepted to ACL 2025

🔗 代码/项目: GITHUB

💡 一句话要点

Dolphin：通过异构锚点提示实现文档图像解析

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文档图像解析 多模态学习 异构锚点提示 并行解析 Transformer 布局分析 内容理解

📋 核心要点

现有文档图像解析方法存在集成开销大、效率低、布局结构易退化等问题。
Dolphin模型采用分析-解析范式，先生成布局元素作为锚点，再并行解析内容。
Dolphin在多个数据集上取得了SOTA性能，并具有轻量级架构和并行解析的优势。

📝 摘要（中文）

文档图像解析面临着文本段落、图表、公式和表格等复杂元素的交织难题。现有方法要么集成专门的专家模型，要么自回归地生成页面级内容，尽管性能尚可，但面临集成开销、效率瓶颈和布局结构退化等问题。为了解决这些限制，我们提出了Dolphin（通过异构锚点提示实现文档图像解析），这是一种新颖的多模态文档图像解析模型，遵循分析-解析范式。在第一阶段，Dolphin按阅读顺序生成一系列布局元素，这些异构元素作为锚点，并与特定任务的提示相结合，反馈给Dolphin，以便在第二阶段进行并行内容解析。为了训练Dolphin，我们构建了一个包含超过3000万个样本的大规模数据集，涵盖多粒度解析任务。通过对流行基准和自构建基准的全面评估，Dolphin在各种页面级和元素级设置中实现了最先进的性能，同时通过其轻量级架构和并行解析机制确保了卓越的效率。代码和预训练模型已公开发布。

🔬 方法详解

问题定义：文档图像解析旨在理解文档图像的结构和内容，面临的挑战在于文档元素（文本、图像、表格等）的复杂性和多样性。现有方法要么依赖于多个专家模型集成，导致开销大，要么采用自回归生成，效率较低，并且容易破坏文档的布局结构。

核心思路：Dolphin的核心思路是将文档图像解析分解为两个阶段：首先，分析文档的布局，生成一系列布局元素（锚点）；然后，利用这些锚点和任务特定的提示，并行地解析每个元素的内容。这种分析-解析的范式能够有效地解耦布局和内容解析，提高效率和准确性。

技术框架：Dolphin模型主要包含两个阶段：1) 布局分析阶段：模型接收文档图像作为输入，生成一系列布局元素，例如文本段落、标题、表格等。这些元素按照阅读顺序排列，作为后续内容解析的锚点。2) 内容解析阶段：模型利用第一阶段生成的布局元素和任务特定的提示，并行地解析每个元素的内容。例如，对于文本段落，模型可以进行OCR识别和文本理解；对于表格，模型可以进行结构识别和数据提取。

关键创新：Dolphin的关键创新在于异构锚点提示机制。通过将布局元素作为锚点，并结合任务特定的提示，模型能够更好地理解文档的结构和内容，从而提高解析的准确性和效率。此外，Dolphin的并行解析机制能够显著提高处理速度，使其能够处理大规模的文档图像数据。

关键设计：Dolphin使用Transformer架构作为其核心模型，并针对文档图像解析任务进行了优化。具体来说，模型采用了多模态融合技术，将图像特征和文本特征进行融合，以更好地理解文档的内容。此外，模型还采用了大规模预训练技术，利用包含3000万样本的数据集进行训练，从而提高了模型的泛化能力。损失函数方面，可能采用了交叉熵损失或者其他适合序列生成任务的损失函数。具体的网络结构细节和参数设置在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

Dolphin在多个文档图像解析基准测试中取得了最先进的性能。具体而言，在页面级和元素级解析任务中，Dolphin的性能均优于现有方法。论文中提到，Dolphin通过轻量级架构和并行解析机制，实现了卓越的效率，但具体的性能提升数据（例如F1值、准确率等）需要参考论文原文。

🎯 应用场景

Dolphin模型在多个领域具有广泛的应用前景，例如自动化文档处理、信息抽取、智能办公、数字图书馆等。它可以用于自动识别和提取文档中的关键信息，提高工作效率，降低人工成本。此外，Dolphin还可以应用于文档图像的检索和分析，为用户提供更加智能化的信息服务。

📄 摘要（原文）

Document image parsing is challenging due to its complexly intertwined elements such as text paragraphs, figures, formulas, and tables. Current approaches either assemble specialized expert models or directly generate page-level content autoregressively, facing integration overhead, efficiency bottlenecks, and layout structure degradation despite their decent performance. To address these limitations, we present \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g}), a novel multimodal document image parsing model following an analyze-then-parse paradigm. In the first stage, Dolphin generates a sequence of layout elements in reading order. These heterogeneous elements, serving as anchors and coupled with task-specific prompts, are fed back to Dolphin for parallel content parsing in the second stage. To train Dolphin, we construct a large-scale dataset of over 30 million samples, covering multi-granularity parsing tasks. Through comprehensive evaluations on both prevalent benchmarks and self-constructed ones, Dolphin achieves state-of-the-art performance across diverse page-level and element-level settings, while ensuring superior efficiency through its lightweight architecture and parallel parsing mechanism. The code and pre-trained models are publicly available at https://github.com/ByteDance/Dolphin

Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理