WCXB: A Multi-Type Web Content Extraction Benchmark

作者: Murrough Foley

分类: cs.CL

发布日期: 2026-05-20

备注: Dataset: github.com/Murrough-Foley/web-content-extraction-benchmark, doi.org/10.5281/zenodo.19316874. Leaderboard: webcontentextraction.org. Preprint also deposited at doi.org/10.5281/zenodo.19664685

💡 一句话要点

提出WCXB多类型网页内容提取基准，揭示现有方法在结构化页面上的盲点。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 网页内容提取 基准数据集 结构化页面 大型语言模型 信息抽取

📋 核心要点

现有网页内容提取基准规模小、类型单一（仅新闻），且数据陈旧，无法全面评估算法性能。
WCXB基准包含七种结构化页面类型，通过LLM辅助和人工审核相结合的方式生成高质量标注。
实验表明，现有方法在文章页面表现良好，但在结构化页面上性能差异大，存在明显的性能盲点。

📝 摘要（中文）

网页内容提取，即将页面的主要内容从周围的样板信息中分离出来，是搜索索引、检索增强生成、自然语言处理数据集构建以及大型语言模型训练的先决条件。该领域的发展受到现有评估基准的限制，这些基准规模小（100-800页）、仅限于新闻文章或基于十多年前的网页。我们引入了网页内容提取基准（WCXB），这是一个包含2008个网页的数据集，来自1613个域名，涵盖七种结构不同的页面类型：文章、论坛、产品、集合、列表、文档和服务页面。该数据集包括一个1497页的开发集和一个511页的保留测试集，具有匹配的页面类型分布。通过一个五阶段的流程生成了ground truth标注：LLM辅助起草、自动验证、四遍frontier模型审查、片段和质量验证脚本以及人工审查。我们评估了13个提取系统（11个启发式和2个神经），发现虽然顶级系统在文章上表现趋同（F1 = 0.93），但在结构化页面类型上的性能差异很大（F1 = 0.41-0.84），揭示了现有仅文章基准无法发现的盲点。该数据集在CC-BY-4.0下发布，包含HTML源文件、ground truth标注、页面类型标签和基线结果。

🔬 方法详解

问题定义：论文旨在解决现有网页内容提取基准数据集不足的问题。现有基准数据集主要存在三个痛点：规模小，无法充分训练和评估模型；类型单一，通常只包含新闻文章，忽略了其他类型的网页结构；数据陈旧，无法反映当前互联网的网页结构特点。这些问题导致现有方法在实际应用中泛化能力不足，尤其是在处理结构化页面时。

核心思路：论文的核心思路是构建一个更大规模、更多样化、更贴近现实的网页内容提取基准数据集。通过包含多种类型的网页结构，可以更全面地评估现有方法的性能，并发现其在不同类型页面上的盲点。高质量的标注数据是基准数据集的关键，论文采用了一种结合LLM辅助和人工审核的标注流程，以保证标注的准确性和一致性。

技术框架：WCXB数据集的构建流程包含五个主要阶段：1. LLM辅助起草：使用大型语言模型生成初始的标注草案。2. 自动验证：使用自动化脚本对标注进行初步验证，例如检查标签的完整性和一致性。3. 四遍frontier模型审查：使用frontier模型进行多轮审查，逐步完善标注。4. 片段和质量验证脚本：使用脚本验证标注片段的质量和一致性。5. 人工审查：由人工专家对标注进行最终审查和修正。

关键创新：WCXB数据集的关键创新在于其多样性和高质量的标注。它包含了七种不同类型的网页结构，覆盖了更广泛的应用场景。同时，通过结合LLM辅助和人工审核的标注流程，保证了标注的准确性和一致性，提高了数据集的可用性。

关键设计：WCXB数据集包含一个1497页的开发集和一个511页的保留测试集，并且保证了两个集合具有匹配的页面类型分布，避免了评估偏差。标注采用CC-BY-4.0协议发布，方便研究者使用。论文还提供了11个启发式和2个神经模型的基线结果，方便研究者进行比较。

📊 实验亮点

实验结果表明，现有网页内容提取系统在文章页面上表现较好（F1=0.93），但在结构化页面上的性能差异显著（F1=0.41-0.84）。这揭示了现有基准数据集仅关注文章页面的局限性，以及现有方法在处理结构化页面时存在的不足。WCXB数据集的发布将有助于推动相关算法的改进和优化。

🎯 应用场景

该研究成果可应用于搜索引擎优化、信息抽取、知识图谱构建、智能客服等领域。高质量的网页内容提取是这些应用的基础，WCXB基准数据集的发布将促进相关技术的发展，提升用户体验，并为大型语言模型的训练提供更优质的数据。

📄 摘要（原文）

Web content extraction - isolating a page's main content from surrounding boilerplate - is a prerequisite for search indexing, retrieval-augmented generation, NLP dataset construction, and large language model training. Progress in this area has been constrained by the limitations of existing evaluation benchmarks, which are small (100-800 pages), restricted to news articles, or based on web pages from over a decade ago. We introduce the Web Content Extraction Benchmark (WCXB), a dataset of 2,008 web pages from 1,613 domains spanning seven structurally distinct page types: articles, forums, products, collections, listings, documentation, and service pages. The dataset includes a 1,497-page development set and a 511-page held-out test set with matched page type distributions. Ground truth annotations were produced through a five-stage pipeline: LLM-assisted drafting, automated verification, four-pass frontier model review, snippet and quality verification scripts, and human review. We evaluate 13 extraction systems - 11 heuristic and 2 neural - and find that while top systems converge on articles (F1 = 0.93), performance diverges sharply on structured page types (F1 = 0.41-0.84), revealing blind spots invisible to existing article-only benchmarks. The dataset is released under CC-BY-4.0 with HTML source files, ground truth annotations, page type labels, and baseline results.

WCXB: A Multi-Type Web Content Extraction Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理