VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

作者: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels

分类: cs.CV

发布日期: 2026-03-16

备注: 9 pages, 4 figures, 4 tables, plus 12-page supplementary. Dataset: https://huggingface.co/datasets/ibm-research/VAREX Code: https://github.com/udibarzi/varex-bench

💡 一句话要点

VAREX：一个用于评估多模态文档结构化信息提取的基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文档结构化提取 多模态学习 基准测试 逆向标注 政府表格

📋 核心要点

现有文档结构化信息提取基准通常只关注单一输入模态，无法有效评估不同模态对模型性能的影响。
VAREX基准通过逆向标注流程生成包含多种模态的文档，并提供确定性的真值，用于系统评估模型在不同输入下的表现。
实验结果表明，在小模型中，结构化输出合规性是瓶颈，且保留布局的文本比图像提供更大的准确性增益。

📝 摘要（中文）

本文提出了VAREX（VARied-schema EXtraction），一个用于评估多模态基础模型从政府表格中提取结构化数据的基准。VAREX采用逆向标注流程，以程序化的方式用合成值填充PDF模板，并通过三阶段质量保证生成确定性的真值。该基准包含1777份文档，涵盖1771种独特的模式，分为三个结构类别，每种类别提供四种输入模态：纯文本、保留布局的文本（空白对齐以近似列位置）、文档图像或文本和图像的组合。与现有仅评估单一输入表示的基准不同，VAREX为每份文档提供四种受控模态，从而能够系统地分析输入格式如何影响提取准确性，这是现有基准所不具备的能力。我们评估了20个模型，从前沿专有模型到小型开源模型，特别关注参数≤4B的模型，适用于成本敏感和延迟受限的部署。结果表明：（1）在4B参数以下，结构化输出的合规性（而非提取能力）是主要的瓶颈；特别是，模式回声（模型产生符合模式的结构而不是提取的值）在受影响的模型中使分数降低了45-65个百分点；（2）在2B参数下进行特定于提取的微调可产生+81个百分点的增益，表明指令遵循缺陷可以在不扩大规模的情况下解决；（3）保留布局的文本提供了最大的准确性增益（+3-18个百分点），超过了像素级视觉线索；（4）该基准最有效地区分了准确率在60-95%范围内的模型。数据集和评估代码已公开。

🔬 方法详解

问题定义：现有文档结构化信息提取方法和基准测试通常只关注单一输入模态（例如，纯文本或图像），无法充分评估多模态信息融合的潜力，也难以系统分析不同模态对提取性能的影响。此外，现有基准在数据生成和标注方面可能存在不确定性，影响评估的可靠性。

核心思路：VAREX的核心思路是通过逆向标注流程，程序化地生成包含多种模态（纯文本、保留布局的文本、文档图像、文本和图像组合）的文档，并提供确定性的真值。这种方法能够控制输入模态，并确保标注的准确性，从而实现对多模态信息提取模型的系统评估。

技术框架：VAREX基准的构建流程主要包括以下几个阶段：1) 选择政府表格作为模板；2) 定义数据模式（schema），即需要提取的字段；3) 使用程序化的方式，根据数据模式生成合成值，并填充到PDF模板中；4) 将PDF文档转换为不同的输入模态（纯文本、保留布局的文本、文档图像、文本和图像组合）；5) 进行三阶段质量保证，确保真值的准确性。

关键创新：VAREX的关键创新在于其逆向标注流程和多模态数据生成方法。与传统的标注方法不同，VAREX通过程序化的方式生成数据和真值，避免了人工标注的误差和不一致性。同时，VAREX提供了四种受控的输入模态，使得研究人员可以系统地分析不同模态对提取性能的影响。

关键设计：VAREX基准包含1777份文档，涵盖1771种独特的模式，分为三个结构类别。评估指标主要关注提取的准确性和结构化输出的合规性。特别地，论文关注了模型是否产生“模式回声”现象，即模型产生符合模式的结构，但未能正确提取值。论文还评估了不同规模的模型（特别是参数≤4B的模型）在不同输入模态下的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在4B参数以下，结构化输出的合规性是主要的瓶颈。特定于提取的微调在2B参数下可产生+81个百分点的增益。保留布局的文本提供了最大的准确性增益（+3-18个百分点），超过了像素级视觉线索。该基准最有效地区分了准确率在60-95%范围内的模型。

🎯 应用场景

VAREX基准可用于评估和比较不同的多模态文档结构化信息提取模型，推动相关技术的发展。该研究成果在自动化数据录入、智能文档处理、金融风控、政务服务等领域具有广泛的应用前景，能够提高工作效率，降低人工成本。

📄 摘要（原文）

We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理