DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models

📄 arXiv: 2410.03061v1 📥 PDF

作者: Sungnyun Kim, Haofu Liao, Srikar Appalaraju, Peng Tang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan, Stefano Soatto

分类: cs.CV, cs.CL

发布日期: 2024-10-04

备注: Accepted to EMNLP 2024


💡 一句话要点

DocKD:利用大型语言模型进行知识蒸馏,提升开放世界文档理解模型的泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉文档理解 知识蒸馏 大型语言模型 数据增强 开放世界 文档分析

📋 核心要点

  1. 现有视觉文档理解模型泛化能力不足,直接利用LLM生成训练数据效果不佳,缺乏文档知识。
  2. DocKD框架通过向LLM提供文档元素(键值对、布局等)来生成高质量的文档注释,提升数据质量。
  3. 实验表明,DocKD训练的模型在领域内与人工标注数据相当,在领域外显著优于人工标注数据。

📝 摘要(中文)

视觉文档理解(VDU)是一项具有挑战性的任务,它涉及理解跨越各种模态(文本和图像)和布局(表格等)的文档。本研究旨在通过从大型语言模型(LLM)中提取知识来提高小型VDU模型的泛化能力。我们发现直接提示LLM通常无法生成信息丰富且有用的数据。为此,我们提出了一个新的框架(称为DocKD),通过整合外部文档知识来丰富数据生成过程。具体来说,我们为LLM提供各种文档元素,如键值对、布局和描述,以引出开放式的答案。我们的实验表明,DocKD产生高质量的文档注释,并超过了不利用外部文档知识的直接知识蒸馏方法。此外,仅使用DocKD生成的数据训练的学生VDU模型不仅与在领域内任务上使用人工标注数据训练的模型相当,而且在领域外任务上明显优于它们。

🔬 方法详解

问题定义:视觉文档理解(VDU)旨在理解包含文本、图像和布局信息的复杂文档。现有的小型VDU模型泛化能力差,难以适应开放世界中的各种文档类型。直接利用大型语言模型(LLM)生成训练数据的方法,由于缺乏对文档结构的理解,往往生成的信息量不足或不准确,无法有效提升VDU模型的性能。

核心思路:DocKD的核心思路是通过向LLM提供更丰富的文档上下文信息,例如键值对、布局和描述,来引导LLM生成更具信息量和准确性的文档注释。这种方法模拟了人类专家在理解文档时的过程,即首先了解文档的结构和内容,然后才能给出合理的解释和答案。

技术框架:DocKD框架主要包含以下几个阶段:1) 文档元素提取:从原始文档中提取关键的文档元素,例如键值对、表格、图像和文本段落。2) 上下文构建:将提取的文档元素组织成结构化的上下文信息,包括布局信息和描述信息。3) LLM提示:将构建的上下文信息作为提示输入到LLM中,要求LLM生成文档注释或答案。4) 知识蒸馏:使用LLM生成的文档注释作为监督信号,训练小型VDU模型。

关键创新:DocKD的关键创新在于利用外部文档知识来增强LLM的数据生成能力。与直接提示LLM的方法相比,DocKD能够生成更高质量的文档注释,从而显著提升小型VDU模型的泛化能力。此外,DocKD框架具有很强的灵活性,可以根据不同的文档类型和任务需求,选择不同的文档元素和提示策略。

关键设计:DocKD框架的关键设计包括:1) 文档元素提取器的选择:可以使用现有的OCR引擎和布局分析算法来提取文档元素。2) 上下文构建策略:需要根据不同的文档类型和任务需求,设计合适的上下文信息组织方式。3) LLM提示策略:需要设计清晰明确的提示语,引导LLM生成所需的文档注释。4) 知识蒸馏损失函数:可以使用交叉熵损失或KL散度损失来衡量学生模型和教师模型之间的差异。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,DocKD能够生成高质量的文档注释,并显著提升小型VDU模型的性能。在领域内任务上,使用DocKD训练的模型与使用人工标注数据训练的模型性能相当。更重要的是,在领域外任务上,使用DocKD训练的模型性能明显优于使用人工标注数据训练的模型,提升幅度超过10%。这表明DocKD能够有效提高VDU模型的泛化能力。

🎯 应用场景

DocKD具有广泛的应用前景,可用于自动化文档处理、信息抽取、智能问答等领域。例如,可以应用于财务报表分析、合同审核、医疗记录处理等场景,提高工作效率和准确性。未来,DocKD可以进一步扩展到处理更复杂的文档类型,例如科学论文、法律文件等,并与其他技术(例如,多模态学习、强化学习)相结合,实现更智能的文档理解。

📄 摘要(原文)

Visual document understanding (VDU) is a challenging task that involves understanding documents across various modalities (text and image) and layouts (forms, tables, etc.). This study aims to enhance generalizability of small VDU models by distilling knowledge from LLMs. We identify that directly prompting LLMs often fails to generate informative and useful data. In response, we present a new framework (called DocKD) that enriches the data generation process by integrating external document knowledge. Specifically, we provide an LLM with various document elements like key-value pairs, layouts, and descriptions, to elicit open-ended answers. Our experiments show that DocKD produces high-quality document annotations and surpasses the direct knowledge distillation approach that does not leverage external document knowledge. Moreover, student VDU models trained with solely DocKD-generated data are not only comparable to those trained with human-annotated data on in-domain tasks but also significantly excel them on out-of-domain tasks.