The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models
作者: Abhinav Kumar Singh, Harsha Vardhan Khurdula, Yoeven D Khemlani, Vineet Agarwal
分类: cs.CL, cs.AI
发布日期: 2026-04-28
备注: 19 pages, 4 figures, 11 tables, submitted to NeurIPS 2026
💡 一句话要点
提出SOB:一个多源结构化输出基准,用于评估大语言模型在结构化数据提取中的质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 结构化输出 大语言模型 多模态学习 基准测试 数据提取
📋 核心要点
- 现有结构化输出生成基准主要关注模式合规性或单一来源领域内的值正确性,缺乏对多源数据的综合评估。
- SOB基准通过提供文本、图像和音频三种模态的数据,并采用文本归一化表示,实现了对结构化输出能力的独立评估。
- 实验结果表明,现有模型在模式合规性方面表现良好,但在跨模态数据上的值准确率仍有提升空间,尤其是在音频数据上。
📝 摘要(中文)
本文介绍了一个名为SOB(The Structured Output Benchmark)的多源基准,用于评估大语言模型从非结构化和半结构化源中提取结构化数据的能力。该基准涵盖三种源模态:原生文本、图像和音频对话。所有模型接收文本归一化表示的上下文,从而隔离结构化输出能力与原始视觉或语音处理质量,确保公平的、源无关的比较。SOB包含5000个文本评估记录(源自一个25091记录的完整语料库的多跳QA),209个图像记录(来自OCR处理的PDF,涵盖七种文档类型),以及115个音频记录(来自AMI语料库)。每个记录都包含一个自然语言问题、一个模型必须遵循的JSON模式以及一个针对源上下文验证的ground-truth答案。作者评估了21个前沿和开源模型,结果表明模型在模式合规性方面表现接近完美,但在值准确率(由精确的叶节点值匹配衡量)方面,文本、图像和音频分别仅达到83.0%、67.2%和23.7%。该数据集、评估流程和所有相关代码均已开源。
🔬 方法详解
问题定义:论文旨在解决大语言模型在从不同来源(文本、图像、音频)提取结构化数据时,缺乏一个综合性的评估基准的问题。现有基准要么只关注模式的合规性,要么只在单一数据来源上评估值的正确性,无法全面衡量模型在真实场景下的结构化输出能力。现有方法的痛点在于无法区分模型在结构化输出方面的能力和其在原始视觉或语音处理方面的能力。
核心思路:论文的核心思路是构建一个多源基准(SOB),该基准包含文本、图像和音频三种模态的数据,并对所有模态的数据进行文本归一化处理,使得模型接收到的输入都是文本形式。这样做的目的是将结构化输出能力与原始视觉或语音处理能力解耦,从而能够更公平地评估模型在结构化输出方面的能力。
技术框架:SOB基准的整体框架包括数据收集、数据预处理、模型评估三个主要阶段。数据收集阶段从多个来源收集文本、图像和音频数据,并为每个数据样本创建一个自然语言问题、一个JSON模式和一个ground-truth答案。数据预处理阶段对所有数据进行文本归一化处理,确保模型接收到的输入都是文本形式。模型评估阶段使用一系列指标(如模式合规性、值准确率等)来评估模型在结构化输出方面的性能。
关键创新:SOB基准最重要的技术创新点在于其多源性和文本归一化处理。多源性使得该基准能够评估模型在不同类型数据上的结构化输出能力,而文本归一化处理则使得该基准能够将结构化输出能力与原始视觉或语音处理能力解耦。与现有方法相比,SOB基准能够更全面、更公平地评估模型在结构化输出方面的能力。
关键设计:SOB基准的关键设计包括:1) 数据来源的多样性,涵盖文本、图像和音频三种模态;2) 文本归一化处理,确保模型接收到的输入都是文本形式;3) 评估指标的多样性,包括模式合规性、值准确率等;4) 数据集的规模,包含5000个文本评估记录、209个图像记录和115个音频记录。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在模式合规性方面表现接近完美,但在值准确率方面仍有提升空间。在文本数据上,最佳模型的值准确率达到83.0%,在图像数据上为67.2%,在音频数据上仅为23.7%。这表明,在处理更长上下文的音频数据时,结构化信息提取的难度显著增加。SOB基准的发布为评估和改进大语言模型在结构化数据提取方面的能力提供了一个有价值的平台。
🎯 应用场景
该研究成果可应用于多种场景,例如:自动解析发票、医疗记录等文档,将PDF文档转换为数据库条目,以及从语音对话中提取结构化信息。SOB基准的发布将促进大语言模型在结构化数据提取领域的应用,提高自动化数据处理的效率和准确性,并为未来的研究提供有价值的资源。
📄 摘要(原文)
Large Language Models are increasingly being deployed to extract structured data from unstructured and semi-structured sources: parsing invoices, medical records, and converting PDF documents to database entries. Yet existing benchmarks for structured output generation either focus on schema compliance alone, or evaluate value correctness within a single source domain. We introduce SOB (The Structured Output Benchmark), a multi-source benchmark spanning three source modalities: native text, images, and audio conversations. All models receive a text-normalized representation of their context regardless of source modality; this deliberate design isolates structured-output capability from raw vision or speech-processing quality, ensuring a fair, source-agnostic comparison. Our benchmark comprises 5,000 text evaluation records derived from multi-hop QA drawn from a 25,091-record full corpus, 209 image records from OCR-processed PDFs across seven document types including multi-column layouts, dense tables, scanned historical documents, small-print text, and mathematical typesetting, and 115 audio records from the AMI corpus. Each record pairs a natural-language question with a JSON schema that the model must follow and a ground-truth answer verified against the source context. We evaluate 21 frontier and open-weight models across three source domains and seven metrics. Our results reveal a consistent pattern: models achieve near-perfect schema compliance, yet the best Value Accuracy, measured by exact leaf-value match, reaches only 83.0% on text, 67.2% on images, and 23.7% on audio, where longer context makes extraction substantially harder. We release the dataset, evaluation pipeline, and all related code.