Tracking the Feature Dynamics in LLM Training: A Mechanistic Study

📄 arXiv: 2412.17626v3 📥 PDF

作者: Yang Xu, Yi Wang, Hengguan Huang, Hao Wang

分类: cs.LG, cs.CL

发布日期: 2024-12-23 (更新: 2025-06-03)

🔗 代码/项目: GITHUB


💡 一句话要点

SAE-Track:追踪LLM训练中特征动态演化的机制性研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 特征演化 稀疏自编码器 训练动态

📋 核心要点

  1. 现有方法难以清晰地描绘LLM训练过程中特征的演化过程,阻碍了对模型机制的深入理解。
  2. SAE-Track通过高效地获取连续的SAE序列,从而能够追踪和分析LLM训练期间特征的动态变化。
  3. 该研究深入探讨了特征的语义演化、形成过程和方向漂移,为理解LLM的训练机制提供了新的视角。

📝 摘要(中文)

理解训练动态和特征演化对于大型语言模型(LLM)的机制可解释性至关重要。尽管稀疏自编码器(SAE)已被用于识别LLM中的特征,但这些特征在训练过程中如何演变的清晰图景仍然难以捉摸。本研究中,我们(1)引入了SAE-Track,一种用于高效获取连续SAE序列的新方法,为一项机制性研究奠定了基础,该研究涵盖(2)特征的语义演化,(3)特征形成的底层过程,以及(4)特征向量的方向漂移。我们的工作为LLM中特征的动态提供了新的见解,增强了我们对训练机制和特征演化的理解。为了可复现性,我们的代码可在https://github.com/Superposition09m/SAE-Track上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)训练过程中特征动态演化难以追踪和理解的问题。现有方法,如使用单个SAE进行特征提取,无法捕捉特征随时间的变化,导致对LLM内部机制的理解不够深入。因此,如何有效地追踪和分析LLM训练期间特征的演化过程是本研究要解决的核心问题。

核心思路:论文的核心思路是构建一个能够持续追踪特征演化的框架。通过训练一系列连续的稀疏自编码器(SAE),每个SAE对应于训练过程中的一个时间点,从而可以观察和分析特征在训练过程中的变化。这种方法允许研究者深入了解特征的语义演化、形成过程以及方向漂移。

技术框架:SAE-Track框架主要包含以下几个阶段:1)在LLM训练的不同阶段,保存模型的中间层激活值;2)使用这些激活值训练一系列稀疏自编码器(SAE),每个SAE对应一个训练阶段;3)分析这些SAE提取的特征,追踪其语义变化、形成过程和方向漂移;4)可视化特征演化过程,以便更好地理解LLM的训练动态。

关键创新:SAE-Track的关键创新在于其能够高效地生成一系列连续的SAE,从而实现对LLM训练过程中特征动态的追踪。与传统的只训练单个SAE的方法相比,SAE-Track能够捕捉到特征随时间的变化,提供更全面的特征演化图景。此外,该研究还深入分析了特征的语义演化、形成过程和方向漂移,为理解LLM的训练机制提供了新的视角。

关键设计:SAE-Track的关键设计包括:1)选择合适的SAE结构,例如编码器和解码器的层数、神经元数量等;2)设计合适的稀疏性约束,例如L1正则化,以鼓励SAE学习到稀疏的特征表示;3)选择合适的优化算法,例如Adam,以高效地训练SAE;4)设计合适的指标来衡量特征的语义变化、形成过程和方向漂移,例如余弦相似度、激活频率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过SAE-Track方法,揭示了LLM训练过程中特征的动态演化过程,包括特征的语义变化、形成机制和方向漂移。实验结果表明,SAE-Track能够有效地追踪特征的演化,并为理解LLM的内部机制提供了新的见解。例如,研究发现某些特征在训练初期迅速形成,并在后续训练中逐渐稳定,而另一些特征则在训练后期才出现,并持续演化。

🎯 应用场景

该研究成果可应用于提升LLM的可解释性和可控性。通过理解LLM训练过程中特征的演化,可以更好地诊断和修复模型中的问题,例如偏差和幻觉。此外,该研究还可以为设计更有效的LLM训练方法提供指导,例如通过控制特征的演化过程来提高模型的性能和泛化能力。未来,该方法还可能应用于其他类型的深度学习模型,以提升其可解释性和可控性。

📄 摘要(原文)

Understanding training dynamics and feature evolution is crucial for the mechanistic interpretability of large language models (LLMs). Although sparse autoencoders (SAEs) have been used to identify features within LLMs, a clear picture of how these features evolve during training remains elusive. In this study, we (1) introduce SAE-Track, a novel method for efficiently obtaining a continual series of SAEs, providing the foundation for a mechanistic study that covers (2) the semantic evolution of features, (3) the underlying processes of feature formation, and (4) the directional drift of feature vectors. Our work provides new insights into the dynamics of features in LLMs, enhancing our understanding of training mechanisms and feature evolution. For reproducibility, our code is available at https://github.com/Superposition09m/SAE-Track.