NEXT-EVAL: Next Evaluation of Traditional and LLM Web Data Record Extraction
作者: Soyeon Kim, Namhee Kim, Yeonwoo Jeong
分类: cs.DB, cs.AI, cs.IR
发布日期: 2025-05-21
备注: Web Data Record Extraction, Zero-Shot Extraction, Large Language Models (LLMs) Evaluation Framework, Comparative Analysis
💡 一句话要点
NEXT-EVAL:提出一个Web数据记录抽取的综合评估框架,支持传统算法和LLM的公平比较。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web数据抽取 信息抽取 大型语言模型 评估框架 数据集生成
📋 核心要点
- 现有Web数据记录抽取评估方法依赖于静态数据集,缺乏通用性和公平性,难以有效比较传统算法和LLM方法。
- NEXT-EVAL框架通过自动生成数据集、XPath标注和结构感知指标,实现了对抽取方法准确性和幻觉的全面评估。
- 实验表明,扁平JSON格式作为LLM的输入,能够显著提高抽取准确率(F1达到0.9567)并减少幻觉现象。
📝 摘要(中文)
Web数据记录抽取方法的有效评估至关重要,但目前受限于静态、领域特定的基准测试和不透明的评分实践。这使得依赖结构启发式的传统算法技术与基于大型语言模型(LLM)的方法之间的公平比较变得极具挑战性,后者提供了跨多种布局的零样本抽取能力。为了克服这些限制,我们引入了一个具体的评估框架。该框架系统地从任意MHTML快照生成评估数据集,注释基于XPath的监督标签,并采用结构感知的指标进行一致的评分,专门防止文本幻觉,只允许评估位置幻觉。它还结合了预处理策略,以优化LLM的输入,同时保留DOM语义:HTML精简、分层JSON和扁平JSON。此外,我们通过转换DOM结构和修改内容创建了一个公开可用的合成数据集。我们针对这些多种输入格式对确定性启发式算法和现成的LLM进行了基准测试。我们的基准测试表明,扁平JSON输入使LLM能够实现卓越的抽取准确率(F1分数为0.9567)和最小的幻觉,优于其他输入格式,如精简HTML和分层JSON。我们为严格的基准测试奠定了标准化的基础,为Web数据记录抽取的下一个原则性进展铺平了道路。
🔬 方法详解
问题定义:Web数据记录抽取旨在从网页中提取结构化数据。现有评估方法的痛点在于:一是数据集领域特定性强,缺乏通用性;二是评分标准不透明,难以区分文本幻觉和位置幻觉;三是无法公平比较传统算法和LLM方法,因为LLM对输入格式敏感。
核心思路:论文的核心思路是构建一个自动化的、可配置的评估框架,该框架能够从任意网页快照生成数据集,并提供结构感知的评估指标。通过控制数据集的生成过程和评估指标的设计,可以更公平地比较不同抽取方法的性能,并深入分析LLM在不同输入格式下的表现。
技术框架:NEXT-EVAL框架包含三个主要模块:1) 数据集生成模块:从MHTML快照生成数据集,并使用XPath进行标注。2) 预处理模块:提供HTML精简、分层JSON和扁平JSON等多种输入格式,以优化LLM的输入。3) 评估模块:使用结构感知的指标来评估抽取方法的准确性和幻觉程度。整体流程是从网页快照开始,经过数据集生成、预处理,然后使用不同的抽取方法进行抽取,最后通过评估模块进行性能评估。
关键创新:该论文的关键创新在于:1) 提出了一个自动化的数据集生成方法,可以从任意网页快照生成数据集,解决了数据集领域特定性的问题。2) 设计了结构感知的评估指标,可以区分文本幻觉和位置幻觉,更准确地评估抽取方法的性能。3) 探索了不同的输入格式对LLM抽取性能的影响,发现扁平JSON格式能够显著提高LLM的抽取准确率。
关键设计:在数据集生成方面,通过随机变换DOM结构和修改内容来增加数据集的多样性。在预处理方面,HTML精简通过移除不必要的HTML标签来减少输入长度,分层JSON和扁平JSON则将DOM结构转换为JSON格式,以便LLM更好地理解网页结构。在评估方面,使用F1 score来衡量抽取准确率,并设计了专门的指标来评估文本幻觉和位置幻觉。
🖼️ 关键图片
📊 实验亮点
实验结果表明,扁平JSON格式作为LLM的输入,能够显著提高抽取准确率,F1 score达到0.9567,并且能够有效减少幻觉现象。相比于其他输入格式(如Slimmed HTML和Hierarchical JSON),扁平JSON在LLM的抽取性能方面具有明显的优势。该研究为LLM在Web数据记录抽取任务中的应用提供了重要的指导。
🎯 应用场景
该研究成果可广泛应用于信息抽取、搜索引擎、数据挖掘等领域。通过提供一个标准化的评估框架,可以促进Web数据记录抽取技术的进步,并帮助开发者选择合适的抽取方法。此外,该框架还可以用于评估LLM在信息抽取任务中的能力,并指导LLM的优化。
📄 摘要(原文)
Effective evaluation of web data record extraction methods is crucial, yet hampered by static, domain-specific benchmarks and opaque scoring practices. This makes fair comparison between traditional algorithmic techniques, which rely on structural heuristics, and Large Language Model (LLM)-based approaches, offering zero-shot extraction across diverse layouts, particularly challenging. To overcome these limitations, we introduce a concrete evaluation framework. Our framework systematically generates evaluation datasets from arbitrary MHTML snapshots, annotates XPath-based supervision labels, and employs structure-aware metrics for consistent scoring, specifically preventing text hallucination and allowing only for the assessment of positional hallucination. It also incorporates preprocessing strategies to optimize input for LLMs while preserving DOM semantics: HTML slimming, Hierarchical JSON, and Flat JSON. Additionally, we created a publicly available synthetic dataset by transforming DOM structures and modifying content. We benchmark deterministic heuristic algorithms and off-the-shelf LLMs across these multiple input formats. Our benchmarking shows that Flat JSON input enables LLMs to achieve superior extraction accuracy (F1 score of 0.9567) and minimal hallucination compared to other input formats like Slimmed HTML and Hierarchical JSON. We establish a standardized foundation for rigorous benchmarking, paving the way for the next principled advancements in web data record extraction.