Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models

📄 arXiv: 2506.17585 📥 PDF

作者: Yukun Huang, Sanxing Chen, Jian Pei, Manzil Zaheer, Bhuwan Dhingra

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-04-07


💡 一句话要点

Cite Pretrain:无需检索的大语言模型知识归属方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识归属 持续预训练 主动索引 指令微调

📋 核心要点

  1. 现有大语言模型生成引用时依赖外部检索,导致延迟高、依赖基础设施且易受检索噪声影响。
  2. Cite Pretrain通过持续预训练将知识绑定到文档标识符,并使用主动索引增强训练,实现无需检索的知识归属。
  3. 实验表明,主动索引在引用精度上优于被动索引基线,最高提升30.2%,且随着数据量增加性能持续提升。

📝 摘要(中文)

值得信赖的语言模型应提供正确且可验证的答案。然而,独立LLM直接生成的引用通常不可靠。因此,目前的系统通过在推理时查询外部检索器来插入引用,这引入了延迟、基础设施依赖以及对检索噪声的脆弱性。我们探索是否可以通过修改训练过程,使LLM能够可靠地归属于在持续预训练期间看到的文档,而无需测试时检索。为此,我们构建了CitePretrainBench,这是一个混合了真实世界语料库(维基百科、Common Crawl、arXiv)和新文档的基准,并探测了短格式(单事实)和长格式(多事实)引用任务。我们的方法遵循一个两阶段过程:(1)持续预训练,通过将事实知识绑定到持久文档标识符来索引事实知识;(2)指令微调以引出引用行为。我们引入了主动索引(Active Indexing)用于第一阶段,它通过使用合成数据增强训练来创建可泛化的、源锚定的绑定,这些合成数据(i)以多样化的、组合的形式重述每个事实,并且(ii)强制执行双向训练(源到事实和事实到源)。这使得模型能够从引用的来源生成内容并归属其自身的答案,从而提高对释义和组合的鲁棒性。对Qwen-2.5-7B&3B的实验表明,主动索引始终优于被动索引基线,后者只是将标识符附加到每个文档,在所有任务和模型中实现了高达30.2%的引用精度提升。我们的消融研究表明,随着我们扩大增强数据的数量,性能持续提高,即使在原始token数量的16倍时也显示出明显的上升趋势。最后,我们表明内部引用通过使模型对检索噪声更具鲁棒性来补充外部引用。

🔬 方法详解

问题定义:现有的大语言模型在生成需要引用的内容时,通常依赖于外部检索器在推理阶段进行检索,这导致了推理速度变慢,对基础设施的依赖性增加,并且容易受到检索噪声的影响,从而影响了生成结果的可靠性。论文旨在解决如何在不依赖外部检索的情况下,使大语言模型能够准确地将生成的内容归属到其在预训练阶段学习到的知识来源。

核心思路:论文的核心思路是通过在预训练阶段将事实知识与文档标识符绑定,构建一个内部的知识索引。然后,通过指令微调来引导模型在生成内容时同时生成相应的文档标识符,从而实现知识归属。为了提高模型的泛化能力和鲁棒性,论文提出了主动索引方法,通过合成数据增强训练,使模型能够从源文档生成事实,也能从事实追溯到源文档。

技术框架:Cite Pretrain 方法包含两个主要阶段: 1. 持续预训练阶段:使用真实世界的语料库(如维基百科、Common Crawl、arXiv)和新文档进行持续预训练,目标是将事实知识与文档标识符绑定。主动索引方法在此阶段被应用,通过合成数据增强训练,创建源锚定的绑定。 2. 指令微调阶段:使用指令微调来引导模型在生成内容时同时生成相应的文档标识符,从而实现知识归属。

关键创新:论文的关键创新在于提出了主动索引(Active Indexing)方法。与简单的被动索引(Passive Indexing)相比,主动索引通过合成数据增强训练,使模型能够学习到事实与来源之间的双向关系,从而提高了模型在面对释义和组合时的鲁棒性。主动索引的核心思想是,不仅要让模型能够从源文档生成事实,还要让模型能够从事实追溯到源文档,从而建立更强的知识绑定。

关键设计:主动索引的关键设计在于合成数据的生成方式。论文通过多样化的、组合的形式重述每个事实,并强制执行双向训练(源到事实和事实到源)。具体来说,对于每个事实,论文会生成多个不同的释义,并将其与对应的文档标识符配对,用于训练模型。同时,论文还会生成从事实到文档标识符的映射,用于训练模型从事实追溯到源文档的能力。论文还探索了不同数量的增强数据对模型性能的影响,发现随着增强数据量的增加,模型性能持续提高。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,主动索引在所有任务和模型中始终优于被动索引基线,实现了高达30.2%的引用精度提升。消融研究表明,随着增强数据量的增加,性能持续提高,即使在原始token数量的16倍时也显示出明显的上升趋势。此外,内部引用可以补充外部引用,提高模型对检索噪声的鲁棒性。

🎯 应用场景

Cite Pretrain 可应用于需要可靠知识归属的各种场景,例如问答系统、内容生成平台和研究工具。通过提供可验证的引用,该方法可以提高用户对生成内容的信任度,并促进知识的传播和验证。未来,该方法可以扩展到更复杂的知识图谱和多模态数据。

📄 摘要(原文)

Trustworthy language models should provide both correct and verifiable answers. However, citations generated directly by standalone LLMs are often unreliable. As a result, current systems insert citations by querying an external retriever at inference time, introducing latency, infrastructure dependence, and vulnerability to retrieval noise. We explore whether LLMs can be made to reliably attribute to the documents seen during continual pretraining without test-time retrieval, by revising the training process. To study this, we construct CitePretrainBench, a benchmark that mixes real-world corpora (Wikipedia, Common Crawl, arXiv) with novel documents and probes both short-form (single-fact) and long-form (multi-fact) citation tasks. Our approach follows a two-stage process: (1) continual pretraining to index factual knowledge by binding it to persistent document identifiers; and (2) instruction tuning to elicit citation behavior. We introduce Active Indexing for the first stage, which creates generalizable, source-anchored bindings by augmenting training with synthetic data that (i) restate each fact in diverse, compositional forms and (ii) enforce bidirectional training (source-to-fact and fact-to-source). This equips the model to both generate content from a cited source and attribute its own answers, improving robustness to paraphrase and composition. Experiments with Qwen-2.5-7B&3B show that Active Indexing consistently outperforms a Passive Indexing baseline, which simply appends an identifier to each document, achieving citation precision gains of up to 30.2% across all tasks and models. Our ablation studies reveal that performance continues to improve as we scale the amount of augmented data, showing a clear upward trend even at 16x the original token count. Finally, we show that internal citations complement external ones by making the model more robust to retrieval noise.