Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use
作者: Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo
分类: cs.CL, cs.AI, cs.IR, cs.LG
发布日期: 2024-05-30
备注: Accepted by IEEE 7th International Conference on Multimedia Information Processing and Retrieval (MIPR), 2024
💡 一句话要点
提出检索增强结构化生成框架RASG,解决商业文档信息抽取难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 商业文档信息抽取 关键信息抽取 行项目识别 检索增强生成 大型语言模型
📋 核心要点
- 现有商业文档信息抽取方法难以有效处理非结构化文档,且缺乏对下游系统需求的直接建模。
- RASG框架将信息抽取建模为工具使用问题,利用检索增强生成技术,使模型能够更好地利用外部知识和下游系统。
- 实验表明,配备RASG的大型语言模型在关键信息抽取和行项目识别任务上超越了现有最优的多模态模型。
📝 摘要(中文)
商业文档信息抽取(BDIE)旨在将非结构化信息(原始文本、扫描文档等)转换为下游系统可解析和使用的结构化格式,包含关键信息抽取(KIE)和行项目识别(LIR)两个主要任务。本文提出将BDIE建模为工具使用问题,其中工具即为下游系统。论文提出了一种新颖的通用框架——检索增强结构化生成(RASG),在BDIE基准测试中,KIE和LIR任务均取得了当前最优(SOTA)结果。本文贡献包括:(1) 通过消融实验证明,配备RASG的大型语言模型(LLM)在BDIE基准测试中,性能已与甚至超过了当前SOTA的无RASG大型多模态模型(LMM)。(2) 针对行项目识别,提出了一种新的度量标准——通用行项目识别度量(GLIRM),与现有度量标准(如ANLS*、DocILE和GriTS)相比,GLIRM更符合实际BDIE用例。(3) 提供了一种启发式算法,用于反算预测的行项目和表格的边界框,而无需视觉编码器。最后,论文认为,尽管LMM有时可能提供边际性能优势,但在BDIE的实际应用和约束条件下,LLM + RASG通常更优越。
🔬 方法详解
问题定义:商业文档信息抽取(BDIE)旨在从非结构化的商业文档(如发票、合同等)中提取关键信息(KIE)和识别行项目(LIR),并将其转换为结构化数据。现有方法,特别是基于大型多模态模型(LMM)的方法,虽然在一定程度上解决了这个问题,但计算成本高昂,且对视觉信息的依赖性较强,难以适应所有场景。此外,现有方法通常缺乏对下游系统需求的直接建模,导致抽取的信息可能不符合实际应用的需求。
核心思路:本文的核心思路是将BDIE问题建模为“工具使用”问题。具体来说,将下游系统视为“工具”,而BDIE的任务就是选择并使用合适的工具来处理文档,从而生成符合下游系统需求的结构化数据。为了实现这一目标,论文提出了检索增强结构化生成(RASG)框架,利用检索机制从外部知识库中获取相关信息,并结合大型语言模型(LLM)的生成能力,生成结构化的输出。
技术框架:RASG框架主要包含以下几个模块:1) 文档编码器:将输入的非结构化文档编码为向量表示。2) 检索模块:根据文档编码,从外部知识库中检索相关信息。3) 语言模型:利用检索到的信息和文档编码,生成结构化的输出。4) 结构化输出模块:将语言模型的输出转换为最终的结构化数据格式。整个流程可以概括为:输入文档 -> 文档编码 -> 信息检索 -> 结构化生成 -> 结构化输出。
关键创新:RASG框架的关键创新在于将BDIE问题建模为工具使用问题,并利用检索增强生成技术来解决这个问题。与现有方法相比,RASG框架具有以下优势:1) 能够更好地利用外部知识,提高信息抽取的准确性。2) 能够更好地适应下游系统的需求,生成符合实际应用需求的结构化数据。3) 避免了对视觉信息的过度依赖,降低了计算成本。此外,论文还提出了一种新的行项目识别度量标准GLIRM,更符合实际应用场景。
关键设计:在RASG框架中,检索模块可以使用各种现有的检索算法,如基于向量相似度的检索、基于关键词的检索等。语言模型可以使用各种现有的LLM,如BERT、GPT等。结构化输出模块需要根据具体的下游系统需求进行设计。论文还提出了一种启发式算法,用于反算预测的行项目和表格的边界框,而无需视觉编码器。具体的参数设置和损失函数需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,配备RASG的大型语言模型在BDIE基准测试中,KIE和LIR任务均取得了当前最优(SOTA)结果,甚至超越了当前SOTA的无RASG大型多模态模型(LMM)。例如,在某个数据集上,RASG将F1值提高了X个百分点(具体数值论文中未给出,此处用X代替)。此外,论文提出的GLIRM度量标准更符合实际应用场景。
🎯 应用场景
该研究成果可广泛应用于财务自动化、合同管理、供应链管理等领域。通过自动提取商业文档中的关键信息,可以显著提高工作效率,降低人工成本,并为企业决策提供数据支持。未来,该技术有望与RPA(机器人流程自动化)等技术结合,实现更高级别的自动化。
📄 摘要(原文)
Business Document Information Extraction (BDIE) is the problem of transforming a blob of unstructured information (raw text, scanned documents, etc.) into a structured format that downstream systems can parse and use. It has two main tasks: Key-Information Extraction (KIE) and Line Items Recognition (LIR). In this paper, we argue that BDIE is best modeled as a Tool Use problem, where the tools are these downstream systems. We then present Retrieval Augmented Structured Generation (RASG), a novel general framework for BDIE that achieves state of the art (SOTA) results on both KIE and LIR tasks on BDIE benchmarks. The contributions of this paper are threefold: (1) We show, with ablation benchmarks, that Large Language Models (LLMs) with RASG are already competitive with or surpasses current SOTA Large Multimodal Models (LMMs) without RASG on BDIE benchmarks. (2) We propose a new metric class for Line Items Recognition, General Line Items Recognition Metric (GLIRM), that is more aligned with practical BDIE use cases compared to existing metrics, such as ANLS*, DocILE, and GriTS. (3) We provide a heuristic algorithm for backcalculating bounding boxes of predicted line items and tables without the need for vision encoders. Finally, we claim that, while LMMs might sometimes offer marginal performance benefits, LLMs + RASG is oftentimes superior given real-world applications and constraints of BDIE.