WRAP++: Web discoveRy Amplified Pretraining

📄 arXiv: 2604.06829v1 📥 PDF

作者: Jiang Zhou, Yunhao Wang, Xing Wu, Tinghao Yu, Feng Zhang

分类: cs.CL, cs.AI

发布日期: 2026-04-08

备注: Work in progress. Correspondence to ucaswu@tencent.com or wuxing@iie.ac.cn


💡 一句话要点

WRAP++:通过Web关系发现增强预训练,提升LLM知识获取

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 预训练 知识发现 跨文档推理 问答系统

📋 核心要点

  1. 现有LLM预训练方法局限于单文档知识,缺乏跨文档关联,导致知识获取不完整。
  2. WRAP++通过挖掘Web超链接中的跨文档关系,合成联合QA,增强事实知识的关联上下文。
  3. 实验表明,使用WRAP++训练的OLMo模型在SimpleQA上显著优于单文档方法,并展现出持续的性能提升。

📝 摘要(中文)

合成数据重述已成为增强大型语言模型(LLM)预训练期间知识获取的强大技术。然而,现有方法在单文档级别运行,孤立地重写单个网页。这会将合成示例限制在文档内部知识,错失跨文档关系,并使事实的关联上下文有限。我们提出了WRAP++(Web discoveRy Amplified Pretraining),它通过发现来自Web超链接的跨文档关系,并综合每个发现的文档对上的联合QA,来放大事实知识的关联上下文。具体而言,WRAP++发现高置信度的关系模式,包括双链接和共同提及,并综合需要跨两个文档进行推理的QA。这产生了单个源文档中不存在的关系知识,为相同的事实创建了不同的入口点。由于有效实体对的数量呈组合增长,因此这种发现驱动的合成也使数据规模远远超出了单文档重写。在Wikipedia上实例化WRAP++,我们将约84亿个token的原始文本放大为800亿个token的跨文档QA数据。在SimpleQA上,基于OLMo的7B和32B规模的模型经过WRAP++训练后,大大优于单文档方法,并表现出持续的缩放增益,突显了跨文档知识发现和放大的优势。

🔬 方法详解

问题定义:现有的大语言模型预训练方法,在利用网络数据时,通常只关注单个文档内部的信息,忽略了文档之间的关联关系。这导致模型学习到的知识缺乏上下文,难以进行复杂的推理和知识整合。因此,如何有效地利用网络中蕴含的跨文档关系,提升模型的知识获取能力,是一个重要的研究问题。

核心思路:WRAP++的核心思路是通过挖掘Web文档之间的超链接关系,构建跨文档的知识图谱,并基于此生成高质量的问答数据。通过让模型学习回答需要跨多个文档进行推理的问题,从而提升模型对知识的理解和运用能力。这种方法能够有效地扩展训练数据的规模,并引入更丰富的知识关联信息。

技术框架:WRAP++主要包含以下几个阶段:1) 关系发现:从Web文档中提取超链接信息,识别具有高置信度的关系模式,如双向链接和共同提及。2) 文档配对:基于发现的关系模式,将相关的文档进行配对。3) QA合成:针对每个文档对,生成需要跨两个文档进行推理的问答数据。4) 模型训练:使用生成的QA数据对大语言模型进行预训练。

关键创新:WRAP++的关键创新在于其跨文档知识发现和放大的机制。与以往的单文档重写方法不同,WRAP++能够有效地利用Web文档之间的关联关系,构建更丰富的知识图谱,并生成更具挑战性的问答数据。这种方法能够显著提升模型的知识获取能力,并使其能够进行更复杂的推理。

关键设计:WRAP++在关系发现阶段,采用了启发式规则和统计方法,以提高关系抽取的准确率。在QA合成阶段,采用了多种策略,包括基于模板的生成和基于规则的生成,以保证生成数据的质量和多样性。此外,WRAP++还采用了数据过滤和清洗技术,以去除噪声数据,提高训练效果。具体参数设置和损失函数细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用WRAP++训练的OLMo模型在SimpleQA数据集上取得了显著的性能提升。具体而言,7B和32B规模的模型均优于使用单文档方法训练的模型,并且表现出持续的缩放增益。例如,WRAP++将84亿个token的原始文本放大为800亿个token的跨文档QA数据,显著提升了数据规模。

🎯 应用场景

WRAP++技术可应用于各种需要知识密集型推理的场景,例如智能问答、信息检索、知识图谱构建等。通过提升LLM的知识获取能力,可以显著改善这些应用的用户体验和性能。未来,该技术有望推动LLM在教育、医疗、金融等领域的广泛应用。

📄 摘要(原文)

Synthetic data rephrasing has emerged as a powerful technique for enhancing knowledge acquisition during large language model (LLM) pretraining. However, existing approaches operate at the single-document level, rewriting individual web pages in isolation. This confines synthesized examples to intra-document knowledge, missing cross-document relationships and leaving facts with limited associative context. We propose WRAP++ (Web discoveRy Amplified Pretraining), which amplifies the associative context of factual knowledge by discovering cross-document relationships from web hyperlinks and synthesizing joint QA over each discovered document pair. Concretely, WRAP++ discovers high-confidence relational motifs including dual-links and co-mentions, and synthesizes QA that requires reasoning across both documents. This produces relational knowledge absent from either source document alone, creating diverse entry points to the same facts. Because the number of valid entity pairs grows combinatorially, this discovery-driven synthesis also amplifies data scale far beyond single-document rewriting. Instantiating WRAP++ on Wikipedia, we amplify ~8.4B tokens of raw text into 80B tokens of cross-document QA data. On SimpleQA, OLMo-based models at both 7B and 32B scales trained with WRAP++ substantially outperform single-document approaches and exhibit sustained scaling gains, underscoring the advantage of cross-document knowledge discovery and amplification.