Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining

📄 arXiv: 2509.05291v1 📥 PDF

作者: Deniz Bayazit, Aaron Mueller, Antoine Bosselut

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-05


💡 一句话要点

提出基于稀疏互编码器的RelIE方法,追踪LLM预训练过程中语言表征的演化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 预训练 表征学习 互编码器 特征演化 可解释性 因果推断

📋 核心要点

  1. 传统LLM评估方法难以揭示模型如何获得概念和能力,阻碍了对模型训练过程的深入理解。
  2. 论文提出使用稀疏互编码器来发现和对齐不同模型检查点之间的特征,从而追踪语言特征的演变。
  3. 通过RelIE指标,论文能够检测预训练期间特征的出现、维持和停止,实现对表征学习的细粒度分析。

📝 摘要(中文)

大型语言模型(LLM)在预训练过程中学习到非凡的抽象概念,例如识别不规则复数名词主语。然而,我们对特定语言能力何时以及如何出现知之甚少,因为传统的评估方法(如基准测试)无法揭示模型如何获得概念和能力。为了弥合这一差距,并更好地理解概念层面的模型训练,我们使用稀疏互编码器来发现和对齐模型检查点之间的特征。通过这种方法,我们追踪了预训练期间语言特征的演变。我们在具有显著性能和表征变化的开源检查点三元组之间训练互编码器,并引入了一种新的指标,即相对间接效应(RelIE),以追踪单个特征对任务性能产生因果重要性的训练阶段。我们表明,互编码器可以检测预训练期间特征的出现、维持和停止。我们的方法与架构无关且可扩展,为在整个预训练过程中对表征学习进行更可解释和细粒度的分析提供了一条有希望的途径。

🔬 方法详解

问题定义:现有的大型语言模型评估方法,如基准测试,无法有效揭示模型在预训练过程中如何获得和演化特定语言能力。这使得我们难以理解模型内部表征的学习过程,以及哪些特征对最终性能至关重要。现有的方法缺乏对模型训练过程的细粒度分析能力。

核心思路:论文的核心思路是利用稀疏互编码器来建立不同模型检查点之间的特征对应关系。通过训练互编码器,可以将一个检查点中的特征映射到另一个检查点中的对应特征,从而追踪特定特征在整个预训练过程中的演变。此外,引入RelIE指标来量化特征对任务性能的因果重要性,从而确定特征的关键训练阶段。

技术框架:该方法主要包含以下几个阶段:1) 选择具有显著性能和表征变化的LLM检查点三元组。2) 在这些检查点之间训练稀疏互编码器,以学习特征之间的映射关系。3) 使用RelIE指标来评估每个特征在不同训练阶段对任务性能的贡献。4) 分析互编码器学习到的特征映射和RelIE值,以追踪特征的出现、维持和停止。

关键创新:该论文的关键创新在于:1) 使用稀疏互编码器来对齐不同模型检查点之间的特征,从而实现对特征演变的追踪。2) 提出了RelIE指标,用于量化特征对任务性能的因果重要性,从而确定特征的关键训练阶段。3) 该方法具有架构无关性和可扩展性,可以应用于不同的LLM架构和预训练数据集。

关键设计:稀疏互编码器的目标是学习一个稀疏的线性映射,将一个检查点中的特征向量映射到另一个检查点中的特征向量。RelIE指标的计算涉及对模型进行干预,并测量干预对任务性能的影响。具体来说,RelIE定义为特征激活对模型输出的间接效应的相对值。互编码器的训练目标是最小化重构误差,同时鼓励特征映射的稀疏性。具体参数设置(如稀疏度惩罚系数)需要根据具体实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,稀疏互编码器能够有效地检测预训练期间特征的出现、维持和停止。通过RelIE指标,可以确定特征对任务性能产生因果重要性的关键训练阶段。该方法在开源LLM检查点上进行了验证,证明了其架构无关性和可扩展性。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于理解和改进大型语言模型的预训练过程。通过追踪语言特征的演变,可以更好地理解模型的学习机制,并有针对性地优化训练策略。此外,该方法还可以用于诊断模型中的问题,例如识别导致性能下降的特征或训练阶段。该技术还有助于开发更可控、更高效的LLM训练方法。

📄 摘要(原文)

Large language models (LLMs) learn non-trivial abstractions during pretraining, like detecting irregular plural noun subjects. However, it is not well understood when and how specific linguistic abilities emerge as traditional evaluation methods such as benchmarking fail to reveal how models acquire concepts and capabilities. To bridge this gap and better understand model training at the concept level, we use sparse crosscoders to discover and align features across model checkpoints. Using this approach, we track the evolution of linguistic features during pretraining. We train crosscoders between open-sourced checkpoint triplets with significant performance and representation shifts, and introduce a novel metric, Relative Indirect Effects (RelIE), to trace training stages at which individual features become causally important for task performance. We show that crosscoders can detect feature emergence, maintenance, and discontinuation during pretraining. Our approach is architecture-agnostic and scalable, offering a promising path toward more interpretable and fine-grained analysis of representation learning throughout pretraining.