Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI

📄 arXiv: 2604.26382v1 📥 PDF

作者: Saurabh K. Singh, Sachin Raj

分类: cs.CL, cs.AI, cs.IR

发布日期: 2026-04-29

备注: 16 pages, 4 tables. Code, metrics, and pilot data to be released upon publication


💡 一句话要点

EnterpriseDocBench:构建企业级文档AI流水线的统一评测框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档AI 流水线评估 基准测试 信息检索 自然语言生成

📋 核心要点

  1. 现有企业文档AI流水线缺乏整体系统评估方法,难以衡量各阶段的相互影响。
  2. 构建EnterpriseDocBench基准测试,统一评估解析、索引、检索和生成等阶段的性能。
  3. 实验表明混合检索方法性能最佳,且跨阶段质量传递效应不明显,答案完整性有待提高。

📝 摘要(中文)

当前企业文档AI主要以流水线形式存在,包含解析、索引、检索和生成等阶段。尽管每个阶段都已得到深入研究,但整体系统的评估仍然具有挑战性。本文构建了EnterpriseDocBench,旨在解决这一问题,它在同一语料库上评估解析保真度、索引效率、检索相关性和生成的事实依据性。该语料库基于六个企业领域的公共许可文档构建(当前试点包含五个)。研究者使用三种流水线(BM25、密集嵌入和混合方法)进行了测试,所有流水线均使用相同的GPT-5生成器。结果表明,混合检索略优于BM25(nDCG@5分别为0.92和0.91),两者均优于密集嵌入(0.83)。幻觉现象并非随文档长度单调增长,短文档和长文档的幻觉比例高于中等长度文档(分别为28.1%和23.8%,而中等长度文档为9.2%)。跨阶段的相关性很弱:解析->检索r=0.14,解析->生成r=0.17,检索->生成0.02。此外,系统在回答陈述性声明时的事实准确率为85.5%,但答案完整性平均为0.40。研究者还描述了三种参考架构(ColPali、ColQwen2、基于复杂性的Agent路由),但尚未进行端到端集成。框架、指标、基线和收集脚本将在接收后开源。

🔬 方法详解

问题定义:现有企业级文档AI系统通常由多个模块组成的流水线构成,例如文档解析、索引、检索和内容生成。尽管每个模块都有各自的评估方法,但是缺乏一个统一的框架来评估整个流水线的性能,以及各个模块之间的相互影响。现有方法难以衡量不同模块之间的质量传递效应,并且无法全面评估生成内容的完整性和准确性。

核心思路:本文的核心思路是构建一个综合性的基准测试平台EnterpriseDocBench,该平台包含一个多领域文档语料库和一套统一的评估指标,用于评估企业级文档AI流水线的各个阶段的性能。通过在同一语料库上运行不同的流水线,并使用统一的指标进行评估,可以比较不同流水线的性能,并分析各个模块之间的相互影响。

技术框架:EnterpriseDocBench包含以下几个主要模块:1) 多领域文档语料库:包含来自六个企业领域的公共许可文档。2) 文档解析模块:用于解析文档内容,提取文本和元数据。3) 索引模块:用于构建文档索引,以便快速检索。4) 检索模块:用于根据用户查询检索相关文档。5) 生成模块:用于根据检索到的文档生成答案或摘要。研究者使用了三种不同的流水线:BM25、密集嵌入和混合方法,所有流水线均使用相同的GPT-5生成器。

关键创新:该论文的关键创新在于构建了一个统一的评估框架,可以全面评估企业级文档AI流水线的性能。该框架包含一个多领域文档语料库和一套统一的评估指标,可以评估解析保真度、索引效率、检索相关性和生成的事实依据性。此外,该研究还揭示了跨阶段质量传递效应不明显,以及答案完整性有待提高的问题。

关键设计:在实验中,研究者使用了三种不同的检索方法:BM25、密集嵌入和混合方法。BM25是一种传统的基于词频的检索方法。密集嵌入方法使用预训练的语言模型将文档和查询嵌入到同一向量空间中,然后使用余弦相似度进行检索。混合方法结合了BM25和密集嵌入方法的优点。生成模块使用GPT-5模型,并使用相同的参数设置。评估指标包括nDCG@5(用于评估检索相关性)、事实准确率和答案完整性(用于评估生成质量)。

📊 实验亮点

实验结果表明,混合检索方法在nDCG@5指标上略优于BM25(0.92 vs. 0.91),两者均优于密集嵌入(0.83)。同时发现,幻觉现象与文档长度并非单调相关,短文档和长文档更容易产生幻觉。更重要的是,系统在回答陈述性声明时的事实准确率高达85.5%,但答案完整性仅为0.40,表明系统倾向于给出正确但不完整的答案。

🎯 应用场景

该研究成果可应用于企业知识管理、智能客服、文档自动化处理等领域。通过使用EnterpriseDocBench,企业可以更好地评估和优化其文档AI流水线,提高文档处理效率和质量,从而提升企业竞争力。该研究也为未来企业级文档AI系统的设计和评估提供了参考。

📄 摘要(原文)

Most enterprise document AI today is a pipeline. Parse, index, retrieve, generate. Each of those stages has been studied to death on its own -- what's still hard is evaluating the system as a whole. We built EnterpriseDocBench to take a swing at it: parsing fidelity, indexing efficiency, retrieval relevance, and generation groundedness, all on the same corpus. The corpus is built from public, permissively licensed documents across six enterprise domains (five represented in the current pilot). We ran three pipelines through it -- BM25, dense embedding, and a hybrid -- all with the same GPT-5 generator. The headline numbers: hybrid retrieval narrowly beats BM25 (nDCG@5 of 0.92 vs. 0.91), and both beat dense embedding (0.83). Hallucination doesn't grow monotonically with document length -- short documents and very long ones both hallucinate more than medium ones (28.1% and 23.8% vs. 9.2%). Cross-stage correlations are very weak: parsing->retrieval r=0.14, parsing->generation r=0.17, retrieval->generation 0.02. If quality were cascading the way most of us assume, those numbers would be much higher; they aren't. Design caveats are real (parsing fixed, generator shared, automated proxy metrics) and we don't oversell the result. One result that genuinely surprised us: factual accuracy on stated claims is 85.5%, but answer completeness averages 0.40. The system is right when it answers -- it just leaves things out. That gap matters more for real deployments than the headline accuracy number does. We also describe three reference architectures (ColPali, ColQwen2, agentic complexity-based routing) which are not yet integrated end-to-end. Framework, metrics, baselines, and collection scripts will be released open-source on acceptance.