VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization
作者: Son Nguyen, Giang Nguyen, Hung Dao, Thao Do, Daeyoung Kim
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-07-13
备注: Under Review
💡 一句话要点
VDInstruct:通过内容感知视觉Token化实现零样本关键信息抽取
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关键信息抽取 视觉文档理解 内容感知Token化 多模态学习 零样本学习
📋 核心要点
- 现有MLLM在处理密集文档时性能不佳,且视觉Token化方法效率低,导致计算和内存开销大。
- VDInstruct采用内容感知Token化策略,根据文档复杂性生成Token,减少冗余,提升效率。
- VDInstruct在KIE基准测试中达到SOTA,零样本评估超越DocOwl 1.5,展示了其优越性和鲁棒性。
📝 摘要(中文)
关键信息抽取(KIE)通过提取精确的语义内容和准确捕捉空间结构,支撑着对视觉文档(如收据和合同)的理解。然而,现有的多模态大型语言模型(MLLM)在密集文档上的表现通常很差,并且依赖于随图像大小缩放的视觉Token化方法,导致冗余计算和内存效率低下。为了解决这些挑战,我们引入了VDInstruct,一个将空间区域检测与语义特征提取分离的MLLM。我们模型的关键在于内容感知Token化策略:它不是均匀地分割整个图像,而是根据文档的复杂程度生成Token,在保留关键结构的同时消除浪费的Token。通过一个三阶段的训练范式,我们的模型在KIE基准测试上取得了最先进(SOTA)的结果,在减少约3.6倍图像Token数量的同时,匹配或超过了领先方法的准确性。在零样本评估中,VDInstruct超越了强大的基线(如DocOwl 1.5)+5.5 F1分,突出了其对未见文档的鲁棒性。这些发现表明,内容感知Token化与显式布局建模相结合,为文档理解提供了一个有希望的方向。数据、源代码和模型权重将公开提供。
🔬 方法详解
问题定义:论文旨在解决现有多模态大型语言模型(MLLM)在关键信息抽取(KIE)任务中,处理密集文档时性能不佳,以及视觉Token化方法效率低下的问题。现有方法通常采用均匀分割图像的方式,导致冗余计算和内存浪费,无法有效捕捉文档的关键结构信息。
核心思路:VDInstruct的核心思路是采用内容感知的视觉Token化策略,即根据文档内容的复杂程度动态地生成Token。复杂区域生成更多Token,简单区域生成较少Token,从而在保留关键结构信息的同时,减少冗余Token的数量,提高计算效率和模型性能。
技术框架:VDInstruct采用一个三阶段的训练范式。首先,模型进行预训练以学习通用的视觉和语言表示。然后,模型进行微调以适应KIE任务,利用内容感知Token化策略提取文档特征。最后,模型进行指令调优,以提高其零样本泛化能力。整体架构包含内容感知Token化模块、视觉编码器、文本编码器和多模态融合模块。
关键创新:VDInstruct最重要的技术创新点在于其内容感知的视觉Token化策略。与现有方法中对图像进行均匀分割不同,VDInstruct能够根据文档内容的复杂程度动态地生成Token,从而更有效地利用计算资源,并更好地捕捉文档的关键结构信息。这种方法能够显著减少Token数量,同时保持或提高模型性能。
关键设计:内容感知Token化模块使用一个轻量级的神经网络来预测每个图像区域的复杂度,并根据复杂度动态地调整Token的数量。损失函数包括交叉熵损失和对比损失,用于优化Token化模块和多模态融合模块。网络结构基于Transformer架构,并针对KIE任务进行了优化。
🖼️ 关键图片
📊 实验亮点
VDInstruct在KIE基准测试中取得了SOTA结果,与现有方法相比,在减少约3.6倍图像Token数量的同时,匹配或超过了领先方法的准确性。在零样本评估中,VDInstruct超越了强大的基线DocOwl 1.5 +5.5 F1分,证明了其优越的泛化能力和鲁棒性。
🎯 应用场景
VDInstruct在文档理解领域具有广泛的应用前景,可用于自动化处理各种视觉文档,如收据、合同、发票等。该技术能够提高信息提取的效率和准确性,降低人工成本,并为企业提供更智能的文档管理解决方案。未来,该技术有望应用于金融、法律、医疗等多个行业。
📄 摘要(原文)
Key Information Extraction (KIE) underpins the understanding of visual documents (e.g., receipts and contracts) by extracting precise semantic content and accurately capturing spatial structure. Yet existing multimodal large language models (MLLMs) often perform poorly on dense documents and rely on vision tokenization approaches that scale with image size, leading to redundant computation and memory inefficiency. To address these challenges, we introduce VDInstruct, an MLLM that separates spatial region detection from semantic feature extraction. Central to our model is a content-aware tokenization strategy: rather than fragmenting the entire image uniformly, it generates tokens in proportion to document complexity, preserving critical structure while eliminating wasted tokens. Leveraging a three-stage training paradigm, our model achieves state-of-the-art (SOTA) results on KIE benchmarks, matching or exceeding the accuracy of leading approaches while reducing the number of image tokens by roughly 3.6x. In zero-shot evaluations, VDInstruct surpasses strong baselines-such as DocOwl 1.5-by +5.5 F1 points, highlighting its robustness to unseen documents. These findings show that content-aware tokenization combined with explicit layout modeling offers a promising direction forward for document understanding. Data, source code, and model weights will be made publicly available.