WebFAQ 2.0: A Multilingual QA Dataset with Mined Hard Negatives for Dense Retrieval
作者: Michael Dinzinger, Laura Caspari, Ali Salman, Irvin Topi, Jelena Mitrović, Michael Granitzer
分类: cs.IR, cs.AI, cs.CL
发布日期: 2026-02-19
💡 一句话要点
发布WebFAQ 2.0:一个包含挖掘的难负例的多语言QA数据集,用于密集检索。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多语言QA 密集检索 难负例挖掘 对比学习 知识蒸馏
📋 核心要点
- 现有FAQ数据集在多语言覆盖和数据多样性方面存在不足,限制了跨语言信息检索的研究。
- WebFAQ 2.0通过新的数据收集策略,直接从Web抓取和提取内容,构建大规模多语言FAQ数据集,并提供难负例。
- 该数据集支持对比学习和知识蒸馏等微调策略,提升密集检索器的性能,并已开源促进相关研究。
📝 摘要(中文)
我们推出了WebFAQ 2.0,这是WebFAQ数据集的新版本,包含1.98亿个基于FAQ的自然问答对,涵盖108种语言。与之前的版本相比,它显著扩展了多语言覆盖范围,并将双语对齐的QA对数量增加到超过1430万,使其成为最大的基于FAQ的资源。与最初的版本不同,WebFAQ 2.0采用了一种新的数据收集策略,直接抓取和提取相关的Web内容,从而产生了一个更加多样化和多语言的数据集,并通过页面标题和描述提供更丰富的上下文。为了响应社区的反馈,我们还发布了一个用于训练密集检索器的难负例数据集,包含20种语言的125万个查询。这些难负例是使用两阶段检索流程挖掘出来的,并包括每个查询200个负例的交叉编码器分数。我们进一步展示了如何使用此资源来实现密集检索器的两种主要微调策略:使用MultipleNegativesRanking损失的对比学习和使用MarginMSE损失的知识蒸馏。WebFAQ 2.0不是一个静态资源,而是长期工作的一部分。自2025年末以来,结构化的FAQ通过开放Web索引定期发布,从而实现持续的扩展和完善。我们发布了数据集和训练脚本,以促进多语言和跨语言IR的进一步研究。数据集本身和所有相关资源都可以在GitHub和HuggingFace上公开获得。
🔬 方法详解
问题定义:论文旨在解决多语言环境下,FAQ检索数据集规模小、多样性不足的问题。现有方法依赖人工标注或简单的数据挖掘,难以覆盖广泛的语言和领域,并且缺乏高质量的负样本,影响了密集检索模型的训练效果。
核心思路:论文的核心思路是通过自动化的Web抓取和挖掘技术,构建一个大规模、多语言、包含高质量难负例的FAQ数据集。通过直接从Web提取内容,可以获得更广泛的语言覆盖和更丰富的上下文信息。同时,利用两阶段检索流程挖掘难负例,提升模型的区分能力。
技术框架:WebFAQ 2.0的数据构建流程主要包括以下几个阶段:1) Web抓取:使用特定的爬虫策略,从互联网上抓取包含FAQ结构化数据的网页。2) 数据清洗和提取:对抓取的网页进行清洗,提取问题和答案对,并进行语言识别和翻译。3) 难负例挖掘:使用两阶段检索流程挖掘难负例,首先使用快速的近似最近邻搜索(ANN)检索候选负例,然后使用交叉编码器对候选负例进行排序,选择得分高的作为难负例。4) 数据集发布:将构建好的数据集发布到GitHub和HuggingFace等平台,供研究人员使用。
关键创新:WebFAQ 2.0的关键创新在于其数据收集策略和难负例挖掘方法。与以往依赖人工标注或简单数据挖掘的方法不同,WebFAQ 2.0直接从Web抓取和提取内容,可以获得更广泛的语言覆盖和更丰富的上下文信息。同时,利用两阶段检索流程挖掘难负例,可以有效提升模型的区分能力。
关键设计:在难负例挖掘阶段,论文使用了两阶段检索流程。第一阶段使用基于向量索引的近似最近邻搜索(ANN)快速检索候选负例,第二阶段使用交叉编码器对候选负例进行排序,选择得分高的作为难负例。每个查询选择200个负例,并提供交叉编码器的得分,方便研究人员使用不同的损失函数进行训练。论文还提供了使用MultipleNegativesRanking损失的对比学习和使用MarginMSE损失的知识蒸馏的训练脚本。
📊 实验亮点
WebFAQ 2.0包含1.98亿个FAQ问答对,覆盖108种语言,是目前最大的FAQ数据集。其中,包含125万个查询的难负例数据集,覆盖20种语言,并提供了交叉编码器得分。实验表明,使用该数据集进行微调可以显著提升密集检索器的性能。
🎯 应用场景
WebFAQ 2.0可应用于多语言智能客服、跨语言信息检索、问答系统等领域。该数据集能够提升模型在多语言环境下的检索准确率和泛化能力,促进跨语言信息交流和知识共享。未来,该数据集可以进一步扩展到更多语言和领域,并应用于更广泛的自然语言处理任务。
📄 摘要(原文)
We introduce WebFAQ 2.0, a new version of the WebFAQ dataset, containing 198 million FAQ-based natural question-answer pairs across 108 languages. Compared to the previous version, it significantly expands multilingual coverage and the number of bilingual aligned QA pairs to over 14.3M, making it the largest FAQ-based resource. Unlike the original release, WebFAQ 2.0 uses a novel data collection strategy that directly crawls and extracts relevant web content, resulting in a substantially more diverse and multilingual dataset with richer context through page titles and descriptions. In response to community feedback, we also release a hard negatives dataset for training dense retrievers, with 1.25M queries across 20 languages. These hard negatives were mined using a two-stage retrieval pipeline and include cross-encoder scores for 200 negatives per query. We further show how this resource enables two primary fine-tuning strategies for dense retrievers: Contrastive Learning with MultipleNegativesRanking loss, and Knowledge Distillation with MarginMSE loss. WebFAQ 2.0 is not a static resource but part of a long-term effort. Since late 2025, structured FAQs are being regularly released through the Open Web Index, enabling continuous expansion and refinement. We publish the datasets and training scripts to facilitate further research in multilingual and cross-lingual IR. The dataset itself and all related resources are publicly available on GitHub and HuggingFace.