VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

📄 arXiv: 2603.15118v1 📥 PDF

作者: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels

分类: cs.CV

发布日期: 2026-03-16

备注: 9 pages, 4 figures, 4 tables, plus 12-page supplementary. Dataset: https://huggingface.co/datasets/ibm-research/VAREX Code: https://github.com/udibarzi/varex-bench


💡 一句话要点

VAREX:一个用于评估多模态文档结构化信息提取的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档结构化提取 多模态学习 基准测试 逆向标注 政府表格

📋 核心要点

  1. 现有文档结构化信息提取基准通常只关注单一输入模态,无法有效评估不同模态对模型性能的影响。
  2. VAREX基准通过逆向标注流程生成包含多种模态的文档,并提供确定性的真值,用于系统评估模型在不同输入下的表现。
  3. 实验结果表明,在小模型中,结构化输出合规性是瓶颈,且保留布局的文本比图像提供更大的准确性增益。

📝 摘要(中文)

本文提出了VAREX(VARied-schema EXtraction),一个用于评估多模态基础模型从政府表格中提取结构化数据的基准。VAREX采用逆向标注流程,以程序化的方式用合成值填充PDF模板,并通过三阶段质量保证生成确定性的真值。该基准包含1777份文档,涵盖1771种独特的模式,分为三个结构类别,每种类别提供四种输入模态:纯文本、保留布局的文本(空白对齐以近似列位置)、文档图像或文本和图像的组合。与现有仅评估单一输入表示的基准不同,VAREX为每份文档提供四种受控模态,从而能够系统地分析输入格式如何影响提取准确性,这是现有基准所不具备的能力。我们评估了20个模型,从前沿专有模型到小型开源模型,特别关注参数≤4B的模型,适用于成本敏感和延迟受限的部署。结果表明:(1)在4B参数以下,结构化输出的合规性(而非提取能力)是主要的瓶颈;特别是,模式回声(模型产生符合模式的结构而不是提取的值)在受影响的模型中使分数降低了45-65个百分点;(2)在2B参数下进行特定于提取的微调可产生+81个百分点的增益,表明指令遵循缺陷可以在不扩大规模的情况下解决;(3)保留布局的文本提供了最大的准确性增益(+3-18个百分点),超过了像素级视觉线索;(4)该基准最有效地区分了准确率在60-95%范围内的模型。数据集和评估代码已公开。

🔬 方法详解

问题定义:现有文档结构化信息提取方法和基准测试通常只关注单一输入模态(例如,纯文本或图像),无法充分评估多模态信息融合的潜力,也难以系统分析不同模态对提取性能的影响。此外,现有基准在数据生成和标注方面可能存在不确定性,影响评估的可靠性。

核心思路:VAREX的核心思路是通过逆向标注流程,程序化地生成包含多种模态(纯文本、保留布局的文本、文档图像、文本和图像组合)的文档,并提供确定性的真值。这种方法能够控制输入模态,并确保标注的准确性,从而实现对多模态信息提取模型的系统评估。

技术框架:VAREX基准的构建流程主要包括以下几个阶段:1) 选择政府表格作为模板;2) 定义数据模式(schema),即需要提取的字段;3) 使用程序化的方式,根据数据模式生成合成值,并填充到PDF模板中;4) 将PDF文档转换为不同的输入模态(纯文本、保留布局的文本、文档图像、文本和图像组合);5) 进行三阶段质量保证,确保真值的准确性。

关键创新:VAREX的关键创新在于其逆向标注流程和多模态数据生成方法。与传统的标注方法不同,VAREX通过程序化的方式生成数据和真值,避免了人工标注的误差和不一致性。同时,VAREX提供了四种受控的输入模态,使得研究人员可以系统地分析不同模态对提取性能的影响。

关键设计:VAREX基准包含1777份文档,涵盖1771种独特的模式,分为三个结构类别。评估指标主要关注提取的准确性和结构化输出的合规性。特别地,论文关注了模型是否产生“模式回声”现象,即模型产生符合模式的结构,但未能正确提取值。论文还评估了不同规模的模型(特别是参数≤4B的模型)在不同输入模态下的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在4B参数以下,结构化输出的合规性是主要的瓶颈。特定于提取的微调在2B参数下可产生+81个百分点的增益。保留布局的文本提供了最大的准确性增益(+3-18个百分点),超过了像素级视觉线索。该基准最有效地区分了准确率在60-95%范围内的模型。

🎯 应用场景

VAREX基准可用于评估和比较不同的多模态文档结构化信息提取模型,推动相关技术的发展。该研究成果在自动化数据录入、智能文档处理、金融风控、政务服务等领域具有广泛的应用前景,能够提高工作效率,降低人工成本。

📄 摘要(原文)

We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.