LLM Circuit Analyses Are Consistent Across Training and Scale

📄 arXiv: 2407.10827v2 📥 PDF

作者: Curt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

分类: cs.LG, cs.CL

发布日期: 2024-07-15 (更新: 2024-11-25)

备注: NeurIPS 2024


💡 一句话要点

LLM回路分析在训练和规模扩展中保持一致性,揭示小模型分析对大模型的适用性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 回路分析 模型机制 持续训练 模型规模 注意力头 算法一致性

📋 核心要点

  1. 现有LLM机制研究多集中于预训练结束时的模型快照,缺乏对持续训练和规模变化下机制演变的考察。
  2. 该研究通过追踪解码器LLM在训练过程中的回路演变,揭示了任务能力和功能组件在不同规模模型中的一致性。
  3. 实验表明,小模型上的回路分析结果可以推广到更大规模的模型和持续训练后的模型,具有重要意义。

📝 摘要(中文)

目前部署的大多数大型语言模型(LLM)都经过持续训练或额外的微调。相比之下,对LLM内部机制的大部分研究都集中在模型在某个时间点的快照(预训练结束时),这就提出了一个问题,即他们的结果是否能推广到实际环境中。现有的关于机制随时间变化的研究主要集中在仅编码器或玩具模型上,这与大多数部署的模型有很大不同。在这项研究中,我们跟踪了模型机制(以回路的形式运作)如何在仅解码器的LLM中,在3000亿个token的训练过程中,在从7000万到28亿参数的模型中出现和演变。我们发现,任务能力和支持它们的功能组件在不同规模的模型中,以相似的token数量一致地出现。此外,尽管这些组件可能由不同的注意力头随时间实现,但它们实现的总体算法仍然存在。令人惊讶的是,这些算法和其中涉及的组件类型都可以在模型规模上复制。这些结果表明,在预训练结束时对小型模型进行的回路分析可以提供在额外预训练后和模型规模上仍然适用的见解。

🔬 方法详解

问题定义:现有研究主要关注预训练完成后的LLM,忽略了模型在持续训练和规模扩展过程中的机制变化。这导致对LLM内部工作原理的理解可能存在偏差,难以推广到实际部署的LLM。因此,需要研究LLM的内部机制(如回路)如何在训练过程中演变,以及这些机制是否能在不同规模的模型中保持一致。

核心思路:该研究的核心思路是追踪LLM在训练过程中的内部机制(回路)的演变,并分析这些机制在不同规模模型中的一致性。通过观察任务能力和功能组件的出现时间、实现方式以及底层算法,来判断小模型上的分析结果是否可以推广到更大规模的模型和持续训练后的模型。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择不同规模的解码器LLM(从7000万到28亿参数);2) 在3000亿个token的训练过程中,定期记录模型的内部状态;3) 通过回路分析技术,识别模型中的关键功能组件和它们之间的连接;4) 分析这些组件的出现时间、实现方式以及底层算法;5) 比较不同规模模型中这些机制的一致性。

关键创新:该研究的关键创新在于:1) 首次系统地研究了LLM在持续训练和规模扩展过程中的内部机制演变;2) 发现任务能力和功能组件在不同规模模型中以相似的token数量一致地出现;3) 揭示了底层算法在不同规模模型和训练阶段的稳定性;4) 证明了小模型上的回路分析结果可以推广到更大规模的模型和持续训练后的模型。

关键设计:该研究的关键设计包括:1) 选择解码器LLM作为研究对象,因为它们是目前最常用的LLM架构;2) 使用回路分析技术来识别模型中的关键功能组件和它们之间的连接;3) 采用多种指标来衡量任务能力和功能组件的出现时间、实现方式以及底层算法;4) 通过统计分析来评估不同规模模型中这些机制的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,任务能力和功能组件在不同规模的模型中,以相似的token数量一致地出现。尽管这些组件可能由不同的注意力头随时间实现,但它们实现的总体算法仍然存在。这些算法和其中涉及的组件类型都可以在模型规模上复制。这些结果表明,在预训练结束时对小型模型进行的回路分析可以提供在额外预训练后和模型规模上仍然适用的见解。

🎯 应用场景

该研究成果可应用于LLM的优化和改进,例如,通过在小模型上进行回路分析,可以预测大模型中的关键机制,从而加速大模型的训练和部署。此外,该研究还可以帮助我们更好地理解LLM的内部工作原理,为开发更可靠、更可控的LLM提供理论基础。该研究结果对于开发高效、可解释的AI系统具有重要意义。

📄 摘要(原文)

Most currently deployed large language models (LLMs) undergo continuous training or additional finetuning. By contrast, most research into LLMs' internal mechanisms focuses on models at one snapshot in time (the end of pre-training), raising the question of whether their results generalize to real-world settings. Existing studies of mechanisms over time focus on encoder-only or toy models, which differ significantly from most deployed models. In this study, we track how model mechanisms, operationalized as circuits, emerge and evolve across 300 billion tokens of training in decoder-only LLMs, in models ranging from 70 million to 2.8 billion parameters. We find that task abilities and the functional components that support them emerge consistently at similar token counts across scale. Moreover, although such components may be implemented by different attention heads over time, the overarching algorithm that they implement remains. Surprisingly, both these algorithms and the types of components involved therein can replicate across model scale. These results suggest that circuit analyses conducted on small models at the end of pre-training can provide insights that still apply after additional pre-training and over model scale.