Semantic Convergence: Investigating Shared Representations Across Scaled LLMs

📄 arXiv: 2507.22918v1 📥 PDF

作者: Daniel Son, Sanjana Rathore, Andrew Rufail, Adrian Simon, Daniel Zhang, Soham Dave, Cole Blondin, Kevin Zhu, Sean O'Brien

分类: cs.CL, cs.LG

发布日期: 2025-07-21

备注: Submitted to ACL 2025 Student Research Workshop (poster)


💡 一句话要点

研究表明,不同规模Gemma-2模型在内部概念表示上具有趋同性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 表征学习 稀疏自编码器 特征对齐 模型可解释性

📋 核心要点

  1. 现有研究缺乏对不同规模LLM内部表征一致性的深入分析,阻碍了跨模型知识迁移和可解释性研究。
  2. 本研究利用稀疏自编码器和表征对齐技术,探索不同规模Gemma-2模型内部特征表示的相似性和差异性。
  3. 实验结果表明,模型中间层具有最强的特征重叠,验证了不同规模LLM在概念表示上具有一定的通用性。

📝 摘要(中文)

本文研究了Gemma-2语言模型(Gemma-2-2B和Gemma-2-9B)中的特征通用性,探讨了规模相差四倍的模型是否仍然收敛于可比较的内部概念。使用稀疏自编码器(SAE)字典学习流程,我们在每个模型的残差流激活上应用SAE,通过激活相关性对齐生成的单义特征,并使用SVCCA和RSA比较匹配的特征空间。结果表明,中间层产生最强的重叠,而早期和晚期层的相似性远低于中间层。初步实验将分析从单token扩展到多token子空间,表明语义相似的子空间与语言模型的交互方式相似。这些结果进一步证实了大型语言模型将世界划分为大致相似、可解释的特征,尽管模型规模存在差异,从而强化了通用性作为跨模型可解释性的基础。

🔬 方法详解

问题定义:论文旨在研究不同规模(2B和9B)的Gemma-2语言模型是否学习到相似的内部概念表示。现有方法难以直接比较不同规模模型内部表征的异同,缺乏有效的对齐和评估手段。

核心思路:论文的核心思路是通过稀疏自编码器(SAE)提取模型内部的单义特征,然后利用激活相关性对齐不同模型提取的特征,最后使用SVCCA和RSA等方法评估对齐后特征空间的相似性。这种方法能够有效地将不同规模模型的内部表征映射到同一空间进行比较。

技术框架:整体框架包括以下几个主要步骤:1) 在Gemma-2-2B和Gemma-2-9B模型的残差流激活上训练稀疏自编码器(SAE),提取单义特征;2) 使用激活相关性对齐不同模型提取的SAE特征;3) 使用SVCCA和RSA等表征相似性分析方法,评估对齐后特征空间的相似性;4) 将分析从单token扩展到多token子空间,研究语义相似子空间的交互模式。

关键创新:论文的关键创新在于:1) 将稀疏自编码器应用于不同规模的Gemma-2模型,提取单义特征;2) 利用激活相关性实现跨模型的特征对齐;3) 系统地评估了不同规模模型内部表征的相似性和差异性,验证了特征通用性假设。

关键设计:在SAE训练中,采用了标准的L1正则化损失函数,以鼓励稀疏性。激活相关性计算采用Pearson相关系数。SVCCA和RSA方法用于量化特征空间的相似性。多token子空间分析中,使用了余弦相似度来衡量语义相似性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Gemma-2-2B和Gemma-2-9B模型在中间层具有最强的特征重叠,验证了不同规模LLM在概念表示上具有一定的通用性。SVCCA和RSA分析结果也支持了这一结论。此外,多token子空间分析表明,语义相似的子空间与语言模型的交互方式相似。

🎯 应用场景

该研究成果可应用于跨模型知识迁移、模型压缩和可解释性研究。通过理解不同规模模型之间的共享表征,可以设计更有效的知识蒸馏方法,提升小模型的性能。此外,该研究有助于开发更通用的模型解释工具,促进对LLM内部工作机制的理解。

📄 摘要(原文)

We investigate feature universality in Gemma-2 language models (Gemma-2-2B and Gemma-2-9B), asking whether models with a four-fold difference in scale still converge on comparable internal concepts. Using the Sparse Autoencoder (SAE) dictionary-learning pipeline, we utilize SAEs on each model's residual-stream activations, align the resulting monosemantic features via activation correlation, and compare the matched feature spaces with SVCCA and RSA. Middle layers yield the strongest overlap, while early and late layers show far less similarity. Preliminary experiments extend the analysis from single tokens to multi-token subspaces, showing that semantically similar subspaces interact similarly with language models. These results strengthen the case that large language models carve the world into broadly similar, interpretable features despite size differences, reinforcing universality as a foundation for cross-model interpretability.