ParseBench: A Document Parsing Benchmark for AI Agents
作者: Boyang Zhang, Sebastián G. Acosta, Preston Carlson, Sacha Bron, Pierre-Loïc Doulcet, Simon Suo
分类: cs.CV
发布日期: 2026-04-09
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
提出ParseBench以解决文档解析中的语义正确性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文档解析 语义正确性 企业自动化 基准测试 视觉-语言模型 数据集 人工验证
📋 核心要点
- 现有文档解析方法未能充分考虑语义正确性,导致在实际应用中出现关键错误。
- 本文提出ParseBench基准,包含2000个企业文档页面,评估解析能力的五个维度。
- 实验结果显示,现有方法在各维度上表现不均,LlamaParse Agentic在整体评分上表现最佳。
📝 摘要(中文)
AI代理正在改变文档解析的要求,尤其是语义正确性。解析的输出必须保留结构和意义,以支持自主决策,包括正确的表格结构、精确的图表数据、语义上有意义的格式和视觉基础。现有基准未能充分捕捉这一企业自动化的场景,依赖于狭窄的文档分布和文本相似性度量,忽视了代理关键的失败。本文提出了ParseBench,一个包含约2000个经过人工验证的企业文档页面的基准,涵盖保险、金融和政府领域,围绕表格、图表、内容忠实性、语义格式和视觉基础五个能力维度进行组织。
🔬 方法详解
问题定义:本文旨在解决现有文档解析方法在语义正确性方面的不足,尤其是在企业自动化场景下,现有基准未能全面捕捉解析的关键失败。
核心思路:提出ParseBench基准,通过收集和组织企业文档,评估解析系统在表格、图表、内容忠实性、语义格式和视觉基础等五个维度的能力,从而提供更全面的评估标准。
技术框架:ParseBench基准包含约2000个经过人工验证的文档页面,涵盖多种企业领域。评估方法包括对14种不同解析方法的测试,涉及视觉-语言模型、专用文档解析器和LlamaParse等。
关键创新:ParseBench的最大创新在于其全面性和针对性,首次系统性地评估了文档解析的语义正确性,填补了现有基准的空白。
关键设计:在设计中,特别关注了五个能力维度的评估标准,确保每个维度都能反映出解析系统的真实能力,并通过人工验证确保数据的准确性。实验中使用的评估代码和数据集均可在HuggingFace和GitHub上获取。
🖼️ 关键图片
📊 实验亮点
实验结果显示,LlamaParse Agentic在整体评分中达到了最高分,表明其在文档解析能力上的优势。同时,基准测试揭示了当前系统在各个能力维度上的能力差距,为未来的研究指明了方向。
🎯 应用场景
该研究的潜在应用领域包括金融、保险和政府等行业的文档自动化处理。通过提升文档解析的语义正确性,ParseBench能够帮助企业实现更高效的决策支持和信息提取,具有重要的实际价值和未来影响。
📄 摘要(原文)
AI agents are changing the requirements for document parsing. What matters is \emph{semantic correctness}: parsed output must preserve the structure and meaning needed for autonomous decisions, including correct table structure, precise chart data, semantically meaningful formatting, and visual grounding. Existing benchmarks do not fully capture this setting for enterprise automation, relying on narrow document distributions and text-similarity metrics that miss agent-critical failures. We introduce \textbf{ParseBench}, a benchmark of ${\sim}2{,}000$ human-verified pages from enterprise documents spanning insurance, finance, and government, organized around five capability dimensions: tables, charts, content faithfulness, semantic formatting, and visual grounding. Across 14 methods spanning vision-language models, specialized document parsers, and LlamaParse, the benchmark reveals a fragmented capability landscape: no method is consistently strong across all five dimensions. LlamaParse Agentic achieves the highest overall score at \agenticoverall\%, and the benchmark highlights the remaining capability gaps across current systems. Dataset and evaluation code are available on \href{https://huggingface.co/datasets/llamaindex/ParseBench}{HuggingFace} and \href{https://github.com/run-llama/ParseBench}{GitHub}.