DTBench: A Synthetic Benchmark for Document-to-Table Extraction
作者: Yuxiang Guo, Zhuoran Du, Nan Tang, Kezheng Tang, Congcong Ge, Yunjun Gao
分类: cs.DB, cs.AI, cs.MA
发布日期: 2026-02-14 (更新: 2026-02-17)
🔗 代码/项目: GITHUB
💡 一句话要点
DTBench:一个用于文档到表格抽取任务的合成基准测试,着重评估LLM的结构化数据生成能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文档到表格抽取 Doc2Table 大型语言模型 LLM 合成数据 基准测试 结构化信息抽取
📋 核心要点
- 现有Doc2Table基准测试缺乏对LLM在推理、忠实性等复杂能力上的细致评估,阻碍了对模型结构化数据生成能力的深入理解。
- 论文提出一种反向Table2Doc范式,利用多智能体系统从表格生成文档,从而构建可控且可扩展的Doc2Table基准测试。
- DTBench基准测试包含5个大类和13个子类的Doc2Table能力,实验表明现有LLM在推理、忠实性和冲突解决方面仍面临挑战。
📝 摘要(中文)
文档到表格(Doc2Table)抽取旨在从非结构化文档中提取符合目标模式的结构化表格,从而实现可靠且可验证的基于SQL的数据分析。尽管大型语言模型(LLM)在灵活的信息抽取方面展现出潜力,但它们生成精确结构化表格的能力仍未得到充分理解,尤其是在需要推理和冲突解决等复杂能力的间接抽取任务中。现有的基准测试既没有明确区分也没有全面覆盖Doc2Table抽取所需的各种能力。我们认为,一个具备能力感知的基准测试对于系统评估至关重要。然而,使用人工标注的文档-表格对构建此类基准测试成本高昂、难以扩展,并且在能力覆盖方面存在局限性。为了解决这个问题,我们采用反向的Table2Doc范式,并设计了一个多智能体合成工作流程,以从真实表格生成文档。基于此方法,我们提出了DTBench,这是一个合成基准测试,它采用了我们提出的Doc2Table能力的两级分类法,涵盖5个主要类别和13个子类别。我们在DTBench上评估了几个主流的LLM,并证明了模型之间存在显著的性能差距,以及在推理、忠实性和冲突解决方面仍然存在挑战。DTBench为数据生成和评估提供了一个全面的测试平台,促进了未来对Doc2Table抽取的研究。该基准测试已在https://github.com/ZJU-DAILY/DTBench上公开。
🔬 方法详解
问题定义:Doc2Table抽取任务旨在从非结构化文档中提取结构化表格,现有基准测试无法全面评估LLM在推理、忠实性、冲突解决等复杂能力,导致无法有效衡量LLM在结构化数据生成方面的性能。人工标注成本高昂且难以覆盖所有能力。
核心思路:论文采用反向Table2Doc范式,即从结构化表格生成非结构化文档,从而避免人工标注,并能更灵活地控制生成数据的多样性和难度。通过设计多智能体系统模拟文档生成过程,实现可控的数据合成。
技术框架:DTBench的整体框架包含以下几个主要阶段: 1. 表格选择:从预定义的表格集合中选择一个表格作为输入。 2. 文档生成:使用多智能体系统,根据选定的表格生成对应的文档。该系统包含多个智能体,分别负责生成不同的文档部分,例如标题、段落、列表等。 3. 能力分类:根据生成的文档和表格,将其归类到预定义的Doc2Table能力类别中。 4. 评估:使用生成的文档和表格对LLM进行评估,衡量其Doc2Table抽取能力。
关键创新:核心创新在于使用反向Table2Doc范式和多智能体系统来合成Doc2Table数据。这种方法避免了人工标注的成本,并且可以灵活地控制生成数据的多样性和难度,从而实现对LLM的全面评估。
关键设计:多智能体系统中的每个智能体都负责生成文档的不同部分,例如标题、段落、列表等。每个智能体都使用预定义的模板和规则来生成文本,并且可以根据表格中的数据进行调整。论文还设计了一种两级分类法,用于对Doc2Table能力进行分类,包括5个主要类别和13个子类别。这些类别涵盖了Doc2Table抽取所需的各种能力,例如推理、忠实性、冲突解决等。
📊 实验亮点
在DTBench上对主流LLM的评估结果表明,模型之间存在显著的性能差距,尤其是在推理、忠实性和冲突解决方面。例如,某些模型在需要多步推理的场景下表现较差,而另一些模型则容易产生与文档内容不符的抽取结果。这些结果突显了现有LLM在Doc2Table抽取任务中存在的挑战,并为未来的研究方向提供了指导。
🎯 应用场景
DTBench可用于评估和提升LLM在结构化信息抽取方面的能力,尤其是在需要复杂推理和冲突解决的场景下。其潜在应用领域包括金融报告分析、法律文档处理、医学记录提取等,能够提高数据分析的效率和准确性,并为基于知识图谱的问答系统提供高质量的数据来源。
📄 摘要(原文)
Document-to-table (Doc2Table) extraction derives structured tables from unstructured documents under a target schema, enabling reliable and verifiable SQL-based data analytics. Although large language models (LLMs) have shown promise in flexible information extraction, their ability to produce precisely structured tables remains insufficiently understood, particularly for indirect extraction that requires complex capabilities such as reasoning and conflict resolution. Existing benchmarks neither explicitly distinguish nor comprehensively cover the diverse capabilities required in Doc2Table extraction. We argue that a capability-aware benchmark is essential for systematic evaluation. However, constructing such benchmarks using human-annotated document-table pairs is costly, difficult to scale, and limited in capability coverage. To address this, we adopt a reverse Table2Doc paradigm and design a multi-agent synthesis workflow to generate documents from ground-truth tables. Based on this approach, we present DTBench, a synthetic benchmark that adopts a proposed two-level taxonomy of Doc2Table capabilities, covering 5 major categories and 13 subcategories. We evaluate several mainstream LLMs on DTBench, and demonstrate substantial performance gaps across models, as well as persistent challenges in reasoning, faithfulness, and conflict resolution. DTBench provides a comprehensive testbed for data generation and evaluation, facilitating future research on Doc2Table extraction. The benchmark is publicly available at https://github.com/ZJU-DAILY/DTBench.