How Do Large Language Models Learn Concepts During Continual Pre-Training?

📄 arXiv: 2601.03570v1 📥 PDF

作者: Barry Menglong Yao, Sha Li, Yunzhi Yao, Minqian Liu, Zaishuo Xia, Qifan Wang, Lifu Huang

分类: cs.CL

发布日期: 2026-01-07

备注: 12 pages, 19 figures


💡 一句话要点

研究大型语言模型概念学习与遗忘机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 概念学习 持续预训练 概念电路 图度量 知识迁移 干扰与协同 可解释性

📋 核心要点

  1. 现有研究对大型语言模型在持续预训练中如何获取和遗忘概念的机制了解不足,缺乏系统性分析。
  2. 本文提出通过分析LLMs的内部概念电路,结合图度量来研究概念的学习与遗忘过程,揭示其动态特征。
  3. 实验结果表明,概念电路在学习与遗忘中提供显著信号,且概念间的干扰与协同作用影响学习效果。

📝 摘要(中文)

人类通过概念理解世界,但大型语言模型(LLMs)如何在持续预训练中获取、保留和遗忘这些概念仍不清楚。本文研究了概念的获取与遗忘,以及多个概念之间的干扰与协同作用。我们将这些行为动态与LLMs内部的概念电路关联,利用图度量来表征电路结构。研究发现:概念电路提供了概念学习与遗忘的显著信号,表现出阶段性时间模式;学习增益大的概念在后续训练中更易遗忘;语义相似的概念干扰更强;概念知识的可迁移性差异显著。这些发现为概念学习动态提供了电路级视角,并为设计更具可解释性和鲁棒性的概念感知训练策略提供了指导。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在持续预训练中概念获取与遗忘的机制不明确的问题。现有方法缺乏对概念学习动态的深入理解,无法有效指导模型训练。

核心思路:通过分析LLMs的内部概念电路,结合图度量来表征电路结构,研究概念的获取、遗忘及其相互干扰,提供系统性视角。

技术框架:研究框架包括概念电路的构建、图度量的计算以及对学习与遗忘动态的分析。主要模块包括数据预处理、模型训练、概念电路提取与分析。

关键创新:提出概念电路作为概念学习与遗忘的信号源,揭示了其阶段性时间模式及干扰效应,与传统方法相比提供了更细致的分析视角。

关键设计:在模型训练中设置了特定的损失函数以优化概念电路的学习,采用图度量分析电路结构,确保对概念动态的准确捕捉。具体参数设置和网络结构设计在实验中进行了详细验证。

📊 实验亮点

实验结果显示,概念电路在概念学习与遗忘中提供了显著信号,学习增益大的概念在后续训练中遗忘率更高。语义相似概念之间的干扰显著,且某些概念的知识迁移性强,能有效促进其他概念的学习。这些发现为模型训练策略的优化提供了重要依据。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能对话系统和知识图谱构建等。通过深入理解概念学习与遗忘机制,可以设计出更具可解释性和鲁棒性的语言模型,提升其在复杂任务中的表现,未来可能推动更智能的AI系统发展。

📄 摘要(原文)

Human beings primarily understand the world through concepts (e.g., dog), abstract mental representations that structure perception, reasoning, and learning. However, how large language models (LLMs) acquire, retain, and forget such concepts during continual pretraining remains poorly understood. In this work, we study how individual concepts are acquired and forgotten, as well as how multiple concepts interact through interference and synergy. We link these behavioral dynamics to LLMs' internal Concept Circuits, computational subgraphs associated with specific concepts, and incorporate Graph Metrics to characterize circuit structure. Our analysis reveals: (1) LLMs concept circuits provide a non-trivial, statistically significant signal of concept learning and forgetting; (2) Concept circuits exhibit a stage-wise temporal pattern during continual pretraining, with an early increase followed by gradual decrease and stabilization; (3) concepts with larger learning gains tend to exhibit greater forgetting under subsequent training; (4) semantically similar concepts induce stronger interference than weakly related ones; (5) conceptual knowledge differs in their transferability, with some significantly facilitating the learning of others. Together, our findings offer a circuit-level view of concept learning dynamics and inform the design of more interpretable and robust concept-aware training strategies for LLMs.