GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling
作者: Siqi Li, Yufan Shen, Xiangnan Chen, Jiayi Chen, Hengwei Ju, Haodong Duan, Song Mao, Hongbin Zhou, Bo Zhang, Bin Fu, Pinlong Cai, Licheng Wen, Botian Shi, Yong Liu, Xinyu Cai, Yu Qiao
分类: cs.CL, cs.CV
发布日期: 2025-04-30 (更新: 2025-05-22)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
GDI-Bench:一个视觉与推理解耦的通用文档智能基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文档智能 多模态学习 基准测试 视觉推理 灾难性遗忘
📋 核心要点
- 现有文档智能基准难以定位模型弱点,阻碍了系统性改进。
- GDI-Bench通过解耦视觉和推理复杂度,构建分级任务,便于模型弱点分析。
- 提出的GDI-Model采用智能保持训练策略,缓解灾难性遗忘,提升模型性能。
📝 摘要(中文)
多模态大语言模型(MLLMs)的快速发展深刻影响了文档领域,创造了广泛的应用场景。这种进步凸显了对全面基准的需求,以评估这些模型在各种文档特定任务中的能力。然而,现有的基准通常无法定位特定的模型弱点或指导系统的改进。为了弥合这一差距,我们引入了一个通用文档智能基准(GDI-Bench),其中包含跨9个关键场景和19个文档特定任务的2.3k图像。通过解耦视觉复杂性和推理复杂性,GDI-Bench构建了分级任务,允许按难度评估性能,从而帮助识别模型弱点和优化指导。我们在GDI-Bench上评估了各种开源和闭源模型,在视觉和推理领域进行了分离分析,揭示了它们的优势和劣势。为了解决GDI-Bench中的各种任务和领域,我们提出了一种GDI-Model,该模型通过智能保持训练策略来减轻监督微调(SFT)过程中的灾难性遗忘,从而加强了基础模型的固有弱点。我们的模型在以前的基准和GDI-Bench上实现了最先进的性能。我们的基准和模型都将在https://huggingface.co/GDIBench上开源。
🔬 方法详解
问题定义:现有文档智能基准测试集无法有效区分视觉理解和推理能力对模型性能的影响,难以定位模型在特定方面的弱点,阻碍了模型改进和优化。因此,需要一个能够解耦视觉和推理复杂度的基准测试集,以便更精确地评估和诊断模型。
核心思路:GDI-Bench的核心思路是通过构建分级任务,将文档智能任务的难度分解为视觉复杂度和推理复杂度两个维度。通过控制这两个维度的难度,可以更清晰地评估模型在不同难度下的表现,从而识别模型的瓶颈和弱点。同时,为了解决模型在多任务学习中出现的灾难性遗忘问题,提出了GDI-Model,采用智能保持训练策略。
技术框架:GDI-Bench包含2.3k张图像,涵盖9个关键场景和19个文档特定任务。这些任务被设计成具有不同的视觉和推理复杂度。GDI-Model的训练流程包括:首先,在一个大型数据集上预训练一个基础模型;然后,使用GDI-Bench数据集进行监督微调(SFT),在SFT过程中,采用智能保持训练策略,以减轻灾难性遗忘。模型评估在GDI-Bench以及其他文档智能基准上进行。
关键创新:GDI-Bench的关键创新在于其解耦视觉和推理复杂度的设计,这使得可以更精确地评估模型在不同方面的能力。GDI-Model的关键创新在于其智能保持训练策略,该策略通过在训练过程中保留模型的先前知识,从而减轻了灾难性遗忘。
关键设计:GDI-Bench中的任务难度分级是关键设计之一,通过控制图像的清晰度、布局复杂度等因素来调整视觉复杂度,通过调整问题所需的推理步骤、知识量等因素来调整推理复杂度。GDI-Model的智能保持训练策略的具体实现细节(例如,如何选择保留哪些知识,如何平衡新知识和旧知识的学习)在论文中可能有所描述,但此处未知。
🖼️ 关键图片
📊 实验亮点
GDI-Model在GDI-Bench以及其他文档智能基准上取得了state-of-the-art的性能,证明了该方法在解决文档智能任务方面的有效性。通过对不同模型的视觉和推理能力进行解耦分析,揭示了它们的优势和劣势,为模型改进提供了指导。具体的性能提升数据未知,需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种文档智能场景,例如自动化文档处理、智能信息提取、智能问答系统等。通过GDI-Bench,可以更有效地评估和改进文档智能模型,提高其在实际应用中的性能和可靠性。该基准和模型将促进文档智能领域的发展,并为相关研究提供有价值的资源。
📄 摘要(原文)
The rapid advancement of multimodal large language models (MLLMs) has profoundly impacted the document domain, creating a wide array of application scenarios. This progress highlights the need for a comprehensive benchmark to evaluate these models' capabilities across various document-specific tasks. However, existing benchmarks often fail to locate specific model weaknesses or guide systematic improvements. To bridge this gap, we introduce a General Document Intelligence Benchmark (GDI-Bench), featuring 2.3k images across 9 key scenarios and 19 document-specific tasks. By decoupling visual complexity and reasoning complexity, the GDI-Bench structures graded tasks that allow performance assessment by difficulty, aiding in model weakness identification and optimization guidance. We evaluate various open-source and closed-source models on GDI-Bench, conducting decoupled analyses in the visual and reasoning domains, revealing their strengths and weaknesses. To address the diverse tasks and domains in the GDI-Bench, we propose a GDI-Model that mitigates catastrophic forgetting during the supervised fine-tuning (SFT) process through an intelligence-preserving training strategy, thereby reinforcing the inherent weaknesses of the base model. Our model achieves state-of-the-art performance on previous benchmarks and the GDI-Bench. Both our benchmark and models are or will be open-sourced on https://huggingface.co/GDIBench.