WCXB: A Multi-Type Web Content Extraction Benchmark
作者: Murrough Foley
分类: cs.CL
发布日期: 2026-05-20
备注: Dataset: github.com/Murrough-Foley/web-content-extraction-benchmark, doi.org/10.5281/zenodo.19316874. Leaderboard: webcontentextraction.org. Preprint also deposited at doi.org/10.5281/zenodo.19664685
💡 一句话要点
提出WCXB多类型网页内容提取基准,揭示现有方法在结构化页面上的盲点。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网页内容提取 基准数据集 结构化页面 大型语言模型 信息抽取
📋 核心要点
- 现有网页内容提取基准规模小、类型单一(仅新闻),且数据陈旧,无法全面评估算法性能。
- WCXB基准包含七种结构化页面类型,通过LLM辅助和人工审核相结合的方式生成高质量标注。
- 实验表明,现有方法在文章页面表现良好,但在结构化页面上性能差异大,存在明显的性能盲点。
📝 摘要(中文)
网页内容提取,即将页面的主要内容从周围的样板信息中分离出来,是搜索索引、检索增强生成、自然语言处理数据集构建以及大型语言模型训练的先决条件。该领域的发展受到现有评估基准的限制,这些基准规模小(100-800页)、仅限于新闻文章或基于十多年前的网页。我们引入了网页内容提取基准(WCXB),这是一个包含2008个网页的数据集,来自1613个域名,涵盖七种结构不同的页面类型:文章、论坛、产品、集合、列表、文档和服务页面。该数据集包括一个1497页的开发集和一个511页的保留测试集,具有匹配的页面类型分布。通过一个五阶段的流程生成了ground truth标注:LLM辅助起草、自动验证、四遍frontier模型审查、片段和质量验证脚本以及人工审查。我们评估了13个提取系统(11个启发式和2个神经),发现虽然顶级系统在文章上表现趋同(F1 = 0.93),但在结构化页面类型上的性能差异很大(F1 = 0.41-0.84),揭示了现有仅文章基准无法发现的盲点。该数据集在CC-BY-4.0下发布,包含HTML源文件、ground truth标注、页面类型标签和基线结果。
🔬 方法详解
问题定义:论文旨在解决现有网页内容提取基准数据集不足的问题。现有基准数据集主要存在三个痛点:规模小,无法充分训练和评估模型;类型单一,通常只包含新闻文章,忽略了其他类型的网页结构;数据陈旧,无法反映当前互联网的网页结构特点。这些问题导致现有方法在实际应用中泛化能力不足,尤其是在处理结构化页面时。
核心思路:论文的核心思路是构建一个更大规模、更多样化、更贴近现实的网页内容提取基准数据集。通过包含多种类型的网页结构,可以更全面地评估现有方法的性能,并发现其在不同类型页面上的盲点。高质量的标注数据是基准数据集的关键,论文采用了一种结合LLM辅助和人工审核的标注流程,以保证标注的准确性和一致性。
技术框架:WCXB数据集的构建流程包含五个主要阶段:1. LLM辅助起草:使用大型语言模型生成初始的标注草案。2. 自动验证:使用自动化脚本对标注进行初步验证,例如检查标签的完整性和一致性。3. 四遍frontier模型审查:使用frontier模型进行多轮审查,逐步完善标注。4. 片段和质量验证脚本:使用脚本验证标注片段的质量和一致性。5. 人工审查:由人工专家对标注进行最终审查和修正。
关键创新:WCXB数据集的关键创新在于其多样性和高质量的标注。它包含了七种不同类型的网页结构,覆盖了更广泛的应用场景。同时,通过结合LLM辅助和人工审核的标注流程,保证了标注的准确性和一致性,提高了数据集的可用性。
关键设计:WCXB数据集包含一个1497页的开发集和一个511页的保留测试集,并且保证了两个集合具有匹配的页面类型分布,避免了评估偏差。标注采用CC-BY-4.0协议发布,方便研究者使用。论文还提供了11个启发式和2个神经模型的基线结果,方便研究者进行比较。
📊 实验亮点
实验结果表明,现有网页内容提取系统在文章页面上表现较好(F1=0.93),但在结构化页面上的性能差异显著(F1=0.41-0.84)。这揭示了现有基准数据集仅关注文章页面的局限性,以及现有方法在处理结构化页面时存在的不足。WCXB数据集的发布将有助于推动相关算法的改进和优化。
🎯 应用场景
该研究成果可应用于搜索引擎优化、信息抽取、知识图谱构建、智能客服等领域。高质量的网页内容提取是这些应用的基础,WCXB基准数据集的发布将促进相关技术的发展,提升用户体验,并为大型语言模型的训练提供更优质的数据。
📄 摘要(原文)
Web content extraction - isolating a page's main content from surrounding boilerplate - is a prerequisite for search indexing, retrieval-augmented generation, NLP dataset construction, and large language model training. Progress in this area has been constrained by the limitations of existing evaluation benchmarks, which are small (100-800 pages), restricted to news articles, or based on web pages from over a decade ago. We introduce the Web Content Extraction Benchmark (WCXB), a dataset of 2,008 web pages from 1,613 domains spanning seven structurally distinct page types: articles, forums, products, collections, listings, documentation, and service pages. The dataset includes a 1,497-page development set and a 511-page held-out test set with matched page type distributions. Ground truth annotations were produced through a five-stage pipeline: LLM-assisted drafting, automated verification, four-pass frontier model review, snippet and quality verification scripts, and human review. We evaluate 13 extraction systems - 11 heuristic and 2 neural - and find that while top systems converge on articles (F1 = 0.93), performance diverges sharply on structured page types (F1 = 0.41-0.84), revealing blind spots invisible to existing article-only benchmarks. The dataset is released under CC-BY-4.0 with HTML source files, ground truth annotations, page type labels, and baseline results.