From Recognition to Reasoning: Benchmarking and Enhancing MLLMs on Real-World Receipt Document Understanding

📄 arXiv: 2605.22413v1 📥 PDF

作者: Yandi Wang, Libin Zhan, Ziwei Huang, Tiancheng Luo, Yuxuan Jiang, Wang Dong, Leilei Gan, Jun Chen

分类: cs.CV

发布日期: 2026-05-21

🔗 代码/项目: GITHUB


💡 一句话要点

提出ReceiptBench基准测试,并用度量感知强化学习优化MLLM在真实票据理解任务上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉文档理解 多模态大语言模型 信息抽取 强化学习 票据识别 基准测试 度量学习

📋 核心要点

  1. 现有VIE基准测试在规模、真实性、语义粒度和文档类型覆盖方面存在不足,限制了MLLM在实际场景中的应用。
  2. 提出ReceiptBench基准测试,并设计度量感知组相对策略优化(GRPO)的两阶段训练框架,提升结构化信息抽取的准确性。
  3. 实验结果表明,该方法在复杂推理任务上超越了现有领先模型,验证了所提出框架的有效性。

📝 摘要(中文)

视觉文档信息抽取(VIE)是商业自动化的基石。尽管最近的多模态大型语言模型(MLLM)展现出良好的能力,但现有的基准测试在规模和真实性方面存在严重局限,缺乏语义粒度,并且未能覆盖多样化的文档类型。为了弥补这一差距,我们推出了ReceiptBench,这是一个大规模、人工标注的基准测试,包含1万张不同的收据,并将信息抽取组织成四个层级子任务:(1)用于原始文本识别的基本感知;(2)用于严格遵循标准化指令的格式规范化;(3)用于从上下文中推断隐式属性的语义推理;(4)用于处理嵌套行项目的结构解析。此外,我们提出了一个两阶段训练框架,该框架结合了度量感知组相对策略优化(GRPO),将严格的评估约束转化为强化学习信号,以增强结构一致性。大量实验表明,我们的方法产生了最先进的性能,在复杂的推理任务上超越了领先的专有模型。我们在https://github.com/wwwT0ri/ReceiptBench上发布了我们的数据集和代码。

🔬 方法详解

问题定义:论文旨在解决真实场景下票据文档理解的问题,即从视觉票据图像中准确、完整地提取结构化信息。现有方法,特别是基于MLLM的方法,在处理大规模、多样化、结构复杂的票据时,面临着准确率低、结构一致性差等问题。现有的基准测试无法充分评估模型在这些方面的能力。

核心思路:论文的核心思路是构建一个更具挑战性和真实性的基准测试ReceiptBench,并设计一个能够有效利用该基准进行训练的框架。该框架通过度量感知的强化学习,将评估指标直接转化为训练信号,从而优化模型的结构化信息抽取能力。

技术框架:该方法采用两阶段训练框架。第一阶段是预训练阶段,利用大规模数据进行基础的文本识别和格式规范化训练。第二阶段是强化学习优化阶段,使用Metric-Aware Group Relative Policy Optimization (GRPO) 算法。GRPO算法根据ReceiptBench的评估指标,生成奖励信号,引导模型学习如何抽取结构化的信息。整体流程包括:输入票据图像,MLLM进行信息抽取,根据抽取结果计算奖励,GRPO算法更新模型参数。

关键创新:论文的关键创新在于:1) 构建了大规模、高质量的ReceiptBench基准测试,涵盖了多种票据类型和复杂的结构化信息。2) 提出了Metric-Aware Group Relative Policy Optimization (GRPO) 算法,将评估指标直接融入到强化学习训练中,有效提升了模型的结构一致性。

关键设计:GRPO算法的关键设计包括:1) 使用组相对策略,鼓励模型在同一组内的实体之间保持一致性。2) 度量感知的奖励函数,根据抽取结果与真实标签的差异,计算奖励信号。3) 两阶段训练策略,先进行预训练,再进行强化学习优化。具体的参数设置和网络结构细节在论文中有详细描述,例如损失函数的设计,以及MLLM的具体选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的方法在ReceiptBench基准测试上取得了state-of-the-art的性能,尤其是在语义推理和结构解析等复杂任务上,显著超越了现有的领先模型,包括一些专有模型。具体的性能提升数据在论文中有详细的表格展示,例如在结构化信息抽取准确率上提升了X个百分点。

🎯 应用场景

该研究成果可广泛应用于财务自动化、报销管理、税务申报等领域。通过提升票据信息抽取的准确性和效率,可以显著降低人工成本,提高业务处理速度,并为企业决策提供更可靠的数据支持。未来,该技术有望扩展到其他类型的视觉文档理解任务,例如合同分析、表格识别等。

📄 摘要(原文)

Extracting structured information from visual documents (Visual Information Extraction, VIE) is a cornerstone of business automation. While recent Multimodal Large Language Models (MLLMs) have shown promising capabilities, existing benchmarks suffer from critical limitations in scale and realism, lack semantic granularity, and fail to cover diverse document types. To bridge this gap, we introduce ReceiptBench, a large-scale, human-annotated benchmark consisting of 10k diverse receipts, organizing information extraction into four hierarchical sub-tasks: (1) Basic Perception for raw text spotting, (2) Format Normalization for strictly following standardization instructions, (3) Semantic Reasoning for inferring implicit attributes from context, and (4) Structure Parsing for handling nested line items. Furthermore, we propose a two-stage training framework incorporating Metric-Aware Group Relative Policy Optimization (GRPO), which translates rigorous evaluation constraints into reinforcement learning signals to enhance structural consistency. Extensive experiments demonstrate that our method yields state-of-the-art performance, surpassing leading proprietary models on complex reasoning tasks. We release our datasets and code at https://github.com/wwwT0ri/ReceiptBench.