PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning

📄 arXiv: 2602.01875v1 📥 PDF

作者: Langming Liu, Kangtao Lv, Haibin Chen, Weidong Zhang, Yejing Wang, Shilei Liu, Xin Tong, Yujin Yuan, Yongwei Wang, Wenbo Su, Bo Zheng

分类: cs.CL

发布日期: 2026-02-02


💡 一句话要点

PretrainRL:通过强化学习预训练缓解大语言模型的事实性幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 事实性幻觉 强化学习 预训练 知识表示

📋 核心要点

  1. 大语言模型预训练数据分布不平衡导致“低概率真理”和“高概率谬误”,是事实性幻觉的根源。
  2. PretrainRL通过强化学习在预训练阶段纠正模型概率分布,降低高概率谬误权重,为学习真理创造空间。
  3. 实验表明,PretrainRL能有效缓解大语言模型的事实性幻觉,并在多个基准测试中超越现有技术水平。

📝 摘要(中文)

大型语言模型(LLMs)虽然功能强大,但存在事实性幻觉问题,即生成可验证的虚假信息。我们认为,这个问题的一个根源在于预训练语料库中数据分布的不平衡,导致了“低概率真理”和“高概率谬误”的状态。最近的方法,如教模型说“我不知道”或事后知识编辑,要么回避问题,要么面临灾难性遗忘。为了从根本上解决这个问题,我们提出了PretrainRL,这是一个将强化学习整合到预训练阶段的新框架,以巩固事实知识。PretrainRL的核心原则是“先去偏后学习”。它通过降低高概率谬误的权重来主动重塑模型的概率分布,从而为有效学习低概率真理创造“空间”。为此,我们设计了一种有效的负采样策略来发现这些高概率谬误,并引入了新的指标来评估模型关于事实知识的概率状态。在三个公共基准上的大量实验表明,PretrainRL显著缓解了事实性幻觉,并优于最先进的方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型中普遍存在的事实性幻觉问题,即模型生成与事实不符的内容。现有方法,如让模型拒绝回答或进行知识编辑,要么无法从根本上解决问题,要么会导致灾难性遗忘,无法保证模型长期性能。

核心思路:PretrainRL的核心思路是“先去偏后学习”。它认为预训练数据分布的不平衡是导致幻觉的根本原因,因此通过强化学习在预训练阶段主动调整模型的概率分布,降低模型对错误信息的置信度,从而为学习正确知识创造空间。

技术框架:PretrainRL框架主要包含以下几个阶段:1) 使用语言模型生成文本;2) 使用负采样策略发现高概率的错误信息;3) 使用强化学习算法,根据错误信息的概率调整模型的参数,降低其生成错误信息的概率;4) 使用新的指标评估模型关于事实知识的概率状态。通过迭代上述过程,模型逐渐学会生成更符合事实的内容。

关键创新:PretrainRL的关键创新在于将强化学习引入到预训练阶段,并提出了“先去偏后学习”的策略。与传统的预训练方法不同,PretrainRL不仅仅是让模型学习语料库中的知识,更重要的是让模型学会区分真假,并降低对错误信息的置信度。此外,论文还设计了有效的负采样策略和新的评估指标,使得强化学习过程更加高效和可控。

关键设计:在负采样策略方面,论文设计了一种能够有效发现高概率错误信息的采样方法。在强化学习方面,论文使用了合适的奖励函数,鼓励模型生成更符合事实的内容。在评估指标方面,论文提出了新的指标来衡量模型关于事实知识的概率状态,从而更好地评估模型的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PretrainRL在三个公共基准测试中显著缓解了事实性幻觉,并优于当前最先进的方法。具体的性能提升数据在论文中给出,表明该方法在提高大语言模型的事实性方面具有显著效果。实验结果验证了“先去偏后学习”策略的有效性。

🎯 应用场景

PretrainRL技术可应用于各种需要大语言模型生成可靠信息的场景,如智能客服、知识问答、内容创作等。通过降低模型产生幻觉的可能性,可以提高用户对模型的信任度,并减少错误信息带来的负面影响。该研究对提升大语言模型的可靠性和安全性具有重要意义。

📄 摘要(原文)

Large language models (LLMs), despite their powerful capabilities, suffer from factual hallucinations where they generate verifiable falsehoods. We identify a root of this issue: the imbalanced data distribution in the pretraining corpus, which leads to a state of "low-probability truth" and "high-probability falsehood". Recent approaches, such as teaching models to say "I don't know" or post-hoc knowledge editing, either evade the problem or face catastrophic forgetting. To address this issue from its root, we propose \textbf{PretrainRL}, a novel framework that integrates reinforcement learning into the pretraining phase to consolidate factual knowledge. The core principle of PretrainRL is "\textbf{debiasing then learning}." It actively reshapes the model's probability distribution by down-weighting high-probability falsehoods, thereby making "room" for low-probability truths to be learned effectively. To enable this, we design an efficient negative sampling strategy to discover these high-probability falsehoods and introduce novel metrics to evaluate the model's probabilistic state concerning factual knowledge. Extensive experiments on three public benchmarks demonstrate that PretrainRL significantly alleviates factual hallucinations and outperforms state-of-the-art methods.