How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

📄 arXiv: 2509.19371v1 📥 PDF

作者: Kangtao Lv, Haibin Chen, Yujin Yuan, Langming Liu, Shilei Liu, Yongwei Wang, Wenbo Su, Bo Zheng

分类: cs.CL, cs.AI

发布日期: 2025-09-19


💡 一句话要点

提出知识注入缩放律,高效指导大语言模型预训练中的领域知识注入

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识注入 预训练 缩放律 领域知识

📋 核心要点

  1. 现有大语言模型在特定领域知识方面存在不足,容易产生幻觉,需要注入领域知识进行优化。
  2. 该论文提出知识注入缩放律,通过分析小模型来预测大模型最佳领域知识注入量,避免灾难性遗忘。
  3. 实验表明,该缩放律能有效预测不同大小模型和预训练token预算下的最佳知识注入量,具有良好的泛化性。

📝 摘要(中文)

大型语言模型(LLMs)因其在各种下游任务中表现出的卓越通用能力而备受关注。然而,在没有针对特定领域的优化时,它们在专业知识基准测试中表现不佳,甚至产生幻觉。最近的研究表明,在预训练期间策略性地注入领域知识可以显著提高下游性能。一个关键的挑战在于平衡这种注入的权衡:注入过少的领域特定数据会导致专业化不足,而过度注入会引发对先前获得知识的灾难性遗忘。在这项工作中,我们关注由过度注入引起的记忆崩溃现象。通过系统的实验,我们提出了两个关键观察结果,即1)临界崩溃点:每个模型都表现出一个阈值,超过该阈值其知识保留能力会急剧下降;2)规模相关性:这些崩溃点与模型的大小一致地缩放。基于这些见解,我们提出了一种知识注入缩放律,通过分析较小的模型来预测注入到大型LLM中的最佳领域知识量。跨不同模型大小和预训练token预算的广泛实验验证了我们的缩放律的有效性和泛化性。

🔬 方法详解

问题定义:大语言模型虽然通用能力强大,但在特定领域知识方面表现不足,容易产生幻觉。直接使用领域数据进行微调或预训练,容易出现“灾难性遗忘”问题,即模型忘记了之前学习到的通用知识。因此,如何在预训练阶段高效地注入领域知识,避免灾难性遗忘,是本文要解决的核心问题。

核心思路:论文的核心思路是发现并利用“知识注入缩放律”。作者观察到,模型存在一个“临界崩溃点”,超过这个点,知识保留能力会急剧下降。同时,这个崩溃点与模型大小存在相关性。因此,可以通过分析小模型的崩溃点,来预测大模型的最佳知识注入量,从而避免过度注入导致的灾难性遗忘。

技术框架:该研究主要通过实验分析来验证提出的缩放律。整体框架包括:1)选择不同大小的语言模型;2)使用不同比例的领域知识数据进行预训练;3)评估模型在通用知识和领域知识上的表现;4)观察并记录模型的“临界崩溃点”;5)分析崩溃点与模型大小之间的关系,从而建立知识注入缩放律。

关键创新:该论文最重要的创新点在于提出了“知识注入缩放律”。该缩放律能够根据模型大小,预测最佳的领域知识注入量,从而在提升领域知识的同时,避免灾难性遗忘。这为大语言模型的高效知识注入提供了一种新的思路和方法。

关键设计:论文的关键设计在于实验设置,包括:1)选择不同大小的Transformer模型,例如125M、350M等;2)使用通用语料库和领域语料库(例如法律、医学)的混合数据进行预训练,并控制领域数据的比例;3)使用通用知识基准(例如MMLU)和领域知识基准(例如法律领域的LexGLUE)来评估模型的性能;4)通过绘制性能曲线,观察模型在不同领域数据比例下的性能变化,从而确定“临界崩溃点”。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该论文提出的知识注入缩放律能够有效地预测不同大小模型和预训练token预算下的最佳知识注入量。例如,通过该缩放律,可以确定在预训练一个1B参数的法律领域大语言模型时,应该注入多少比例的法律语料,从而在保证通用能力的同时,最大程度地提升法律领域的专业能力。实验验证了该缩放律的有效性和泛化性。

🎯 应用场景

该研究成果可应用于各种需要领域知识增强的大语言模型。例如,在法律、医疗、金融等专业领域,可以利用该缩放律指导预训练过程,高效地将领域知识注入到模型中,提升模型在特定任务上的表现,并减少幻觉的产生。该方法有助于构建更加可靠和专业的AI系统。

📄 摘要(原文)

Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.