IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation

📄 arXiv: 2602.23481v1 📥 PDF

作者: Md Mofijul Islam, Md Sirajus Salekin, Joe King, Priyashree Roy, Vamsi Thilak Gudi, Spencer Romo, Akhil Nooney, Boyi Xie, Bob Strahan, Diego A. Socolinsky

分类: cs.CL

发布日期: 2026-02-26


💡 一句话要点

IDP Accelerator:提出一种基于Agent的文档智能框架,用于端到端的文档理解与合规验证。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档智能 Agentic AI 大型语言模型 信息抽取 合规验证

📋 核心要点

  1. 工业NLP中,从非结构化文档中提取结构化信息仍然是一个基础挑战,传统方法难以处理复杂文档和合规要求。
  2. IDP Accelerator通过Agentic AI实现端到端文档智能,包含文档分割、信息抽取、智能分析和规则验证四大模块。
  3. 在医疗保健场景的实际部署中,IDP Accelerator显著提升了分类准确率,降低了处理延迟和运营成本。

📝 摘要(中文)

本文提出IDP (Intelligent Document Processing) Accelerator,一个支持Agent的AI框架,用于端到端的文档智能处理。该框架包含四个关键组件:(1) DocSplit,一个新颖的基准数据集和多模态分类器,使用BIO标注来分割复杂的文档包;(2) 可配置的抽取模块,利用多模态LLM将非结构化内容转换为结构化数据;(3) Agentic Analytics模块,兼容模型上下文协议(MCP),通过安全、沙盒化的代码执行提供数据访问;(4) 规则验证模块,用LLM驱动的逻辑取代确定性引擎,进行复杂的合规性检查。交互式演示允许用户上传文档包,可视化分类结果,并通过直观的Web界面探索提取的数据。在领先的医疗保健提供商的生产部署中,该框架实现了98%的分类准确率,处理延迟降低了80%,运营成本降低了77%。IDP Accelerator已开源,并提供在线演示。

🔬 方法详解

问题定义:工业界需要从大量的非结构化文档中提取结构化信息,并进行合规性验证。传统的信息抽取流水线难以处理复杂的多文档包,缺乏有效的推理能力,并且难以满足严格的合规性要求。现有方法通常依赖于确定性的规则引擎,难以适应复杂和变化的业务逻辑。

核心思路:利用大型语言模型(LLMs)的zero-shot能力进行信息抽取,并引入Agentic AI的概念,通过可配置的模块化设计,实现端到端的文档智能处理。核心在于将文档处理流程分解为多个可控的步骤,并利用LLM在每个步骤中进行推理和决策。

技术框架:IDP Accelerator包含四个主要模块:DocSplit、Extraction Module、Agentic Analytics Module和Rule Validation Module。DocSplit负责将复杂的文档包分割成独立的文档;Extraction Module利用多模态LLM将非结构化内容转换为结构化数据;Agentic Analytics Module提供安全沙箱环境,允许执行代码进行数据分析;Rule Validation Module使用LLM进行复杂的合规性检查。

关键创新:主要创新在于将Agentic AI引入文档智能处理领域,并设计了一个完整的端到端框架。与传统的确定性规则引擎相比,使用LLM进行规则验证可以更好地适应复杂和变化的业务逻辑。DocSplit数据集的提出也为文档分割任务提供了一个新的基准。

关键设计:DocSplit使用BIO标注方法进行文档分割,并训练多模态分类器。Extraction Module使用可配置的prompt工程来指导LLM进行信息抽取。Agentic Analytics Module兼容Model Context Protocol (MCP),提供安全的数据访问。Rule Validation Module使用LLM进行逻辑推理,并输出合规性检查结果。

📊 实验亮点

在领先的医疗保健提供商的生产部署中,IDP Accelerator实现了98%的文档分类准确率,相比传统方法,处理延迟降低了80%,运营成本降低了77%。这些结果表明,IDP Accelerator在实际应用中具有显著的优势。

🎯 应用场景

IDP Accelerator可应用于金融、医疗、法律等多个行业,用于处理合同、发票、医疗记录等文档。它可以自动化文档处理流程,提高效率,降低成本,并确保合规性。该框架的开源和在线演示有助于推动文档智能技术的发展和应用。

📄 摘要(原文)

Understanding and extracting structured insights from unstructured documents remains a foundational challenge in industrial NLP. While Large Language Models (LLMs) enable zero-shot extraction, traditional pipelines often fail to handle multi-document packets, complex reasoning, and strict compliance requirements. We present IDP (Intelligent Document Processing) Accelerator, a framework enabling agentic AI for end-to-end document intelligence with four key components: (1) DocSplit, a novel benchmark dataset and multimodal classifier using BIO tagging to segment complex document packets; (2) configurable Extraction Module leveraging multimodal LLMs to transform unstructured content into structured data; (3) Agentic Analytics Module, compliant with the Model Context Protocol (MCP) providing data access through secure, sandboxed code execution; and (4) Rule Validation Module replacing deterministic engines with LLM-driven logic for complex compliance checks. The interactive demonstration enables users to upload document packets, visualize classification results, and explore extracted data through an intuitive web interface. We demonstrate effectiveness across industries, highlighting a production deployment at a leading healthcare provider achieving 98% classification accuracy, 80% reduced processing latency, and 77% lower operational costs over legacy baselines. IDP Accelerator is open-sourced with a live demonstration available to the community.