DeepJSONEval: Benchmarking Complex Nested JSON Data Mining for Large Language Models

📄 arXiv: 2509.25922v1 📥 PDF

作者: Zhicheng Zhou, Jing Li, Suming Qiu, Junjie Huang, Linyuan Qiu, Zhijie Sun

分类: cs.AI, cs.CL

发布日期: 2025-09-30

🔗 代码/项目: GITHUB


💡 一句话要点

DeepJSONEval:提出深度嵌套JSON数据挖掘基准,评估LLM在复杂结构化数据处理中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: JSON数据挖掘 大型语言模型 基准测试 结构化数据 信息抽取

📋 核心要点

  1. 现有评估LLM的JSON输出能力基准侧重于纯JSON生成,忽略了数据理解和提取能力,与实际Web数据挖掘任务脱节。
  2. DeepJSONEval提出一个包含2100个多领域实例的深度嵌套JSON基准,旨在更真实地评估LLM在复杂结构化数据处理中的能力。
  3. 实验结果表明,现有LLM在处理DeepJSONEval基准中的深度嵌套JSON结构时存在显著的性能差距,突显了该基准的价值。

📝 摘要(中文)

互联网充斥着低密度、高冗余的信息,例如社交媒体评论、重复新闻和冗长的讨论,这使得高效提取有价值的见解变得困难。多层嵌套JSON结构通过将此类信息压缩成语义丰富的分层表示来提供有效的解决方案,这些表示将数据组织成键值对、数组和嵌套对象,从而保留上下文关系并实现高效的存储、检索和语义查询。例如,在新闻聚合中,JSON对象可以分层嵌套文章的元数据(标题、作者、日期)、内容(文本、多媒体)和多媒体信息(多媒体类型、标题)。大型语言模型(LLM)通过解析非结构化文本并将结构化结果直接输出到复杂的JSON模式中,在Web数据挖掘中发挥着变革性作用。然而,当前用于评估LLM的JSON输出能力的基准过度强调纯JSON生成,而不是评估数据理解和提取能力,这种局限性缺乏与实际Web数据挖掘任务的相关性。为了解决这个问题,我们引入了DeepJSONEval,这是一个新颖的基准,具有2100个多领域实例,具有深度嵌套结构,并按难度进行分类。实验表明,LLM在处理这种复杂性方面存在显着的性能差距。我们的基准和数据集是开源的,旨在推进结构化JSON生成的研究。

🔬 方法详解

问题定义:现有的大语言模型(LLM)在处理Web数据挖掘任务时,虽然能够生成JSON格式的输出,但缺乏对深层嵌套JSON结构的理解和有效提取能力。现有的评估基准侧重于JSON的生成,而忽略了对数据本身语义的理解,无法真实反映LLM在实际应用中的表现。

核心思路:DeepJSONEval的核心思路是构建一个更具挑战性的基准数据集,该数据集包含多领域、深度嵌套的JSON结构,以此来更全面地评估LLM在理解和提取复杂结构化数据方面的能力。通过增加JSON结构的深度和复杂度,迫使LLM不仅要生成符合语法的JSON,还要真正理解数据之间的关系。

技术框架:DeepJSONEval基准包含2100个多领域实例,这些实例具有深度嵌套的JSON结构,并根据难度进行分类。数据集涵盖了各种Web数据挖掘场景,例如新闻聚合、社交媒体分析等。该基准旨在评估LLM从非结构化文本中提取信息,并将其组织成复杂JSON结构的能力。

关键创新:DeepJSONEval的关键创新在于其数据集的深度嵌套结构和多领域覆盖。与现有基准相比,DeepJSONEval更真实地模拟了实际Web数据挖掘任务中遇到的复杂JSON数据。此外,该基准还提供了难度分级,可以更细粒度地评估LLM的性能。

关键设计:DeepJSONEval的数据集构建过程中,考虑了JSON结构的深度、嵌套层数、数据类型多样性等因素。为了保证数据集的质量,采用了人工标注和验证相结合的方法。难度分级是基于JSON结构的复杂度和信息提取的难度来确定的。具体的参数设置和损失函数取决于所使用的LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在DeepJSONEval基准上的性能存在显著差距,这表明该基准能够有效区分不同LLM在处理复杂JSON数据方面的能力。具体性能数据(例如准确率、召回率等)未在摘要中明确给出,但强调了性能差距的存在,突显了DeepJSONEval基准的价值。

🎯 应用场景

DeepJSONEval基准的潜在应用领域包括Web数据挖掘、信息抽取、知识图谱构建等。该基准可以帮助研究人员更好地评估和改进LLM在处理复杂结构化数据方面的能力,从而提高LLM在实际应用中的性能和效率。未来,该基准可以扩展到更多领域,并与其他评估指标相结合,形成更全面的LLM评估体系。

📄 摘要(原文)

The internet is saturated with low-density, high-redundancy information, such as social media comments, repetitive news, and lengthy discussions, making it difficult to extract valuable insights efficiently. Multi-layer nested JSON structures provide an effective solution by compressing such information into semantically rich, hierarchical representations, which organize data into key-value pairs, arrays, and nested objects, preserving contextual relationships and enabling efficient storage, retrieval, and semantic querying. For instance, in news aggregation, a JSON object can nest an article's metadata (title, author, date), content (text, multimedia), and multimedia information (multimedia type, caption) hierarchically. Large Language Models (LLMs) play a transformative role in web data mining by parsing unstructured text and outputting structured results directly into complex JSON schemas. However, current benchmarks for evaluating LLMs' JSON output capabilities overemphasize pure JSON generation rather than assessing data comprehension and extraction abilities, a limitation that lacks relevance to practical web data mining tasks. To address this, we introduce DeepJSONEval, a novel benchmark featuring 2100 multi-domain instances with deep nested structures, categorized by difficulty. Experiments show significant performance gaps among LLMs in handling such complexity. Our benchmark and datasets are open-sourced to advance research in structured JSON generation.(https://github.com/GTS-AI-Infra-Lab-SotaS/DeepJSONEval).