DistilDoc: Knowledge Distillation for Visually-Rich Document Applications

📄 arXiv: 2406.08226v2 📥 PDF

作者: Jordy Van Landeghem, Subhajit Maity, Ayan Banerjee, Matthew Blaschko, Marie-Francine Moens, Josep Lladós, Sanket Biswas

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-06-12 (更新: 2025-03-12)

备注: Accepted to ICDAR 2024 (Athens, Greece)


💡 一句话要点

提出DistilDoc,利用知识蒸馏提升视觉文档理解任务的模型效率与鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 知识蒸馏 视觉文档理解 模型压缩 文档布局分析 文档图像分类

📋 核心要点

  1. 现有视觉文档理解模型日益复杂,忽略了模型压缩带来的效率提升。
  2. 提出DistilDoc,通过知识蒸馏将大型模型的知识迁移到小型模型,提升模型效率。
  3. 实验表明,精心设计的知识蒸馏策略可以使小型模型在文档理解任务上超越有监督训练。

📝 摘要(中文)

本文探索了知识蒸馏(KD)在视觉文档(VRD)应用中的应用,例如文档布局分析(DLA)和文档图像分类(DIC)。虽然VRD研究依赖于日益复杂和繁琐的模型,但该领域忽略了通过模型压缩来研究效率。本文设计了一种KD实验方法,用于在文档理解(DU)任务上获得更精简、性能更高的模型,这些任务是大型任务流程中不可或缺的。我们精心选择了KD策略(基于响应、基于特征),用于将知识提炼到具有不同架构(ResNet、ViT、DiT)和容量(base、small、tiny)的骨干网络,以及从这些网络中提炼知识。我们研究了哪些因素影响教师-学生知识差距,并发现一些方法(调整后的vanilla KD、MSE、带有适当投影器的SimKD)可以始终优于有监督的学生训练。此外,我们设计了下游任务设置来评估协变量偏移以及蒸馏DLA模型在零样本布局感知文档视觉问答(DocVQA)上的鲁棒性。DLA-KD实验导致了较大的mAP知识差距,这种差距不可预测地转化为下游鲁棒性,突出了进一步探索如何有效获得更多语义文档布局意识的必要性。

🔬 方法详解

问题定义:论文旨在解决视觉文档理解(VRD)领域中模型体积大、计算成本高的问题。现有方法依赖于复杂的模型架构以获得更高的性能,但忽略了模型效率,这限制了它们在资源受限环境中的部署。因此,需要一种方法来压缩模型,同时保持甚至提高其性能。

核心思路:论文的核心思路是利用知识蒸馏(KD)技术,将大型、高性能的教师模型的知识迁移到小型、高效的学生模型。通过这种方式,学生模型可以学习到教师模型的泛化能力,从而在保持甚至提高性能的同时,显著减小模型体积和计算复杂度。

技术框架:整体框架包括以下几个主要步骤:1) 选择教师模型和学生模型,它们可以具有不同的架构(如ResNet、ViT、DiT)和容量(如base、small、tiny);2) 设计知识蒸馏策略,包括基于响应的蒸馏和基于特征的蒸馏;3) 使用文档布局分析(DLA)和文档图像分类(DIC)等任务对模型进行训练和评估;4) 在下游任务(如DocVQA)上评估模型的鲁棒性。

关键创新:论文的关键创新在于针对视觉文档理解任务,系统性地研究了不同知识蒸馏策略的效果,并探索了如何缩小教师-学生模型之间的知识差距。此外,论文还设计了下游任务来评估蒸馏模型的鲁棒性,并发现蒸馏后的DLA模型在零样本DocVQA任务中表现出一定的鲁棒性。

关键设计:论文的关键设计包括:1) 精心选择知识蒸馏策略,如调整后的vanilla KD、MSE损失和带有适当投影器的SimKD,以优化知识迁移过程;2) 使用不同的骨干网络架构(ResNet、ViT、DiT)和容量(base、small、tiny)进行实验,以评估不同模型之间的知识迁移效果;3) 设计下游任务(DocVQA)来评估蒸馏模型的鲁棒性,并分析知识差距与下游性能之间的关系。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,精心设计的知识蒸馏策略可以使学生模型在文档理解任务上超越有监督训练。例如,调整后的vanilla KD、MSE损失和带有适当投影器的SimKD等方法,在DLA和DIC任务上均取得了良好的性能。此外,下游任务实验表明,蒸馏后的DLA模型在零样本DocVQA任务中表现出一定的鲁棒性,尽管DLA-KD实验存在较大的mAP知识差距。

🎯 应用场景

该研究成果可应用于各种视觉文档理解场景,例如自动化文档处理、信息提取、智能办公等。通过知识蒸馏,可以将大型模型压缩为小型模型,从而在移动设备或边缘设备上部署高性能的文档理解应用,实现更高效、更便捷的文档处理服务。此外,该方法还可以提高文档理解模型的鲁棒性,使其在面对噪声、模糊等复杂场景时仍能保持良好的性能。

📄 摘要(原文)

This work explores knowledge distillation (KD) for visually-rich document (VRD) applications such as document layout analysis (DLA) and document image classification (DIC). While VRD research is dependent on increasingly sophisticated and cumbersome models, the field has neglected to study efficiency via model compression. Here, we design a KD experimentation methodology for more lean, performant models on document understanding (DU) tasks that are integral within larger task pipelines. We carefully selected KD strategies (response-based, feature-based) for distilling knowledge to and from backbones with different architectures (ResNet, ViT, DiT) and capacities (base, small, tiny). We study what affects the teacher-student knowledge gap and find that some methods (tuned vanilla KD, MSE, SimKD with an apt projector) can consistently outperform supervised student training. Furthermore, we design downstream task setups to evaluate covariate shift and the robustness of distilled DLA models on zero-shot layout-aware document visual question answering (DocVQA). DLA-KD experiments result in a large mAP knowledge gap, which unpredictably translates to downstream robustness, accentuating the need to further explore how to efficiently obtain more semantic document layout awareness.