StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs
作者: Jialin Yang, Dongfu Jiang, Lipeng He, Sherman Siu, Yuxuan Zhang, Disen Liao, Zhuofeng Li, Huaye Zeng, Yiming Jia, Haozhe Wang, Benjamin Schneider, Chi Ruan, Wentao Ma, Zhiheng Lyu, Yifei Wang, Yi Lu, Quy Duc Do, Ziyan Jiang, Ping Nie, Wenhu Chen
分类: cs.SE, cs.AI, cs.CL
发布日期: 2025-05-26 (更新: 2026-01-19)
备注: 24 pages, 8 figures, 14 tables
💡 一句话要点
StructEval:全面评估LLM生成结构化输出能力的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 结构化输出 基准测试 评估指标 生成任务
📋 核心要点
- 现有LLM在生成结构化输出时,缺乏系统性的评估和统一的基准测试,难以衡量模型在不同格式下的结构保真度。
- StructEval提出了一种全面的基准测试,包含生成和转换两种任务范式,覆盖多种结构化数据格式,并设计了新的评估指标。
- 实验结果表明,即使是先进的LLM在结构化输出生成方面仍存在显著差距,生成任务比转换任务更具挑战性。
📝 摘要(中文)
随着大型语言模型(LLMs)在软件开发工作流程中变得不可或缺,它们生成结构化输出的能力至关重要。我们推出了StructEval,这是一个综合性的基准测试,用于评估LLMs生成非渲染型(JSON、YAML、CSV)和渲染型(HTML、React、SVG)结构化格式的能力。与之前的基准测试不同,StructEval通过两种范式系统地评估跨多种格式的结构保真度:1)生成任务,从自然语言提示生成结构化输出;2)转换任务,在结构化格式之间进行转换。我们的基准测试包含18种格式和44种任务类型,并具有用于格式遵守和结构正确性的新颖指标。结果表明存在显著的性能差距——即使是最先进的模型,如o1-mini,也仅达到75.58的平均分,而开源替代方案落后约10分。我们发现生成任务比转换任务更具挑战性,并且生成正确的视觉内容比生成纯文本结构更困难。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在生成结构化输出时缺乏系统性评估的问题。现有方法通常针对特定格式或任务进行评估,缺乏通用性和可比性,难以全面衡量LLMs在不同结构化数据格式下的生成能力。此外,现有方法在评估结构保真度方面也存在不足,难以准确反映生成输出的质量。
核心思路:StructEval的核心思路是构建一个全面的基准测试,通过生成任务和转换任务两种范式,系统地评估LLMs在多种结构化数据格式下的生成能力。通过设计新的评估指标,StructEval能够更准确地衡量生成输出的格式遵守和结构正确性,从而全面评估LLMs的结构化输出生成能力。
技术框架:StructEval的整体框架包含以下几个主要组成部分:1)结构化数据格式:涵盖JSON、YAML、CSV等非渲染型格式,以及HTML、React、SVG等渲染型格式,共18种格式。2)任务类型:包括生成任务(从自然语言提示生成结构化输出)和转换任务(在不同结构化格式之间进行转换),共44种任务类型。3)评估指标:包括格式遵守指标(衡量生成输出是否符合目标格式的语法规则)和结构正确性指标(衡量生成输出的结构是否与预期一致)。
关键创新:StructEval的关键创新在于其全面的评估范围和新颖的评估指标。与现有方法相比,StructEval覆盖了更广泛的结构化数据格式和任务类型,能够更全面地评估LLMs的结构化输出生成能力。此外,StructEval提出的格式遵守和结构正确性指标能够更准确地衡量生成输出的质量,从而为LLMs的结构化输出生成能力评估提供更可靠的依据。
关键设计:StructEval的关键设计包括:1)任务数据的构建:针对每种结构化数据格式和任务类型,StructEval都精心设计了相应的任务数据,以确保评估的全面性和有效性。2)评估指标的定义:StructEval针对格式遵守和结构正确性,分别定义了相应的评估指标,并采用自动化评估方法,以提高评估的效率和准确性。3)基线模型的选择:StructEval选择了多个具有代表性的LLMs作为基线模型,包括开源模型和闭源模型,以进行全面的性能比较。
🖼️ 关键图片
📊 实验亮点
StructEval的实验结果表明,即使是最先进的LLM在结构化输出生成方面仍存在显著差距,例如o1-mini模型平均分仅为75.58,开源模型落后约10分。生成任务比转换任务更具挑战性,生成视觉内容比生成文本结构更困难。这些结果为LLM的结构化输出生成能力提供了重要的参考。
🎯 应用场景
StructEval的研究成果可应用于软件开发、数据处理、自然语言处理等多个领域。通过StructEval,开发者可以更好地评估和选择适合特定任务的LLM,提高软件开发的效率和质量。此外,StructEval还可以促进LLM在结构化数据生成方面的研究,推动相关技术的进步。
📄 摘要(原文)
As Large Language Models (LLMs) become integral to software development workflows, their ability to generate structured outputs has become critically important. We introduce StructEval, a comprehensive benchmark for evaluating LLMs' capabilities in producing both non-renderable (JSON, YAML, CSV) and renderable (HTML, React, SVG) structured formats. Unlike prior benchmarks, StructEval systematically evaluates structural fidelity across diverse formats through two paradigms: 1) generation tasks, producing structured output from natural language prompts, and \textbf{2)} conversion tasks, translating between structured formats. Our benchmark encompasses 18 formats and 44 types of task, with novel metrics for format adherence and structural correctness. Results reveal significant performance gaps-even state-of-the-art models like o1-mini achieve only 75.58 average score, with open-source alternatives lagging approximately 10 points behind. We find generation tasks more challenging than conversion tasks, and producing correct visual content more difficult than generating text-only structures.