Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective

📄 arXiv: 2406.17969v2 📥 PDF

作者: Hanqi Yan, Yanzheng Xiang, Guangyi Chen, Yifei Wang, Lin Gui, Yulan He

分类: cs.CL, cs.AI

发布日期: 2024-06-25 (更新: 2024-10-15)

备注: EMNLP24, Main, Long


💡 一句话要点

从特征解耦角度重新审视单义性,提出鼓励单义性提升模型能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单义性 特征解耦 大型语言模型 偏好对齐 表征学习

📋 核心要点

  1. 现有研究对单义性与模型能力的关系存在争议,缺乏统一的理论解释和实验验证。
  2. 论文提出从特征解耦的角度理解单义性,认为鼓励单义性有助于提升模型容量和性能。
  3. 实验结果表明,单义性与模型能力正相关,且提出的特征解耦正则化器能有效提升偏好对齐性能。

📝 摘要(中文)

为了更好地理解大型语言模型(LLMs)的内在机制,最近的研究集中在其基本单元的单义性上。一个单义神经元专门负责单个且特定的概念,从而在神经元和概念之间形成一对一的对应关系。尽管在单义性探测方面进行了广泛的研究,但单义性对模型能力是有益还是有害仍不清楚。为了探讨这个问题,我们从特征解耦的角度重新审视单义性,并提倡鼓励单义性。我们通过实验观察到,wang2024learning提出的“降低单义性可以提高模型性能”的结论在模型改变时并不成立。相反,我们证明了在偏好对齐过程中,单义性始终与模型能力呈正相关。因此,我们将特征相关性作为单义性的代理,并将特征解耦正则化器纳入动态偏好优化过程中。实验表明,我们的方法不仅增强了表征多样性和激活稀疏性,而且提高了偏好对齐性能。

🔬 方法详解

问题定义:现有研究对于单义性(monosemanticity)对大型语言模型(LLMs)能力的影响存在争议,例如Wang2024learning认为降低单义性可以提升模型性能。这种不一致性表明我们对单义性的理解还不够深入,需要重新审视其作用机制。现有方法缺乏从特征相关性的角度来分析单义性,并且没有有效地利用单义性来提升模型性能。

核心思路:论文的核心思路是将单义性与特征解耦联系起来。单义性意味着神经元只负责表达一个概念,这自然对应于特征之间的低相关性。因此,论文将特征相关性作为单义性的代理指标,并通过降低特征相关性来鼓励单义性。这种思路的合理性在于,解耦的特征能够更清晰地表达不同的概念,从而提升模型的表达能力。

技术框架:论文的技术框架主要包括两个部分:首先,通过实验验证单义性与模型能力之间的正相关性;其次,将特征解耦正则化器引入到动态偏好优化过程中。具体来说,首先计算模型中间层特征的协方差矩阵,然后使用正则化项惩罚特征之间的相关性。这个正则化项被添加到原有的偏好优化目标函数中,从而在训练过程中鼓励特征解耦。

关键创新:论文的关键创新在于:1)提出了从特征解耦的角度来理解和鼓励单义性,为单义性研究提供了一个新的视角;2)设计了一种基于特征解耦的正则化方法,能够有效地提升模型的偏好对齐性能。与现有方法相比,该方法更加直接地利用了单义性的优势,并且能够与其他偏好优化方法相结合。

关键设计:论文的关键设计包括:1)使用特征的协方差矩阵来衡量特征之间的相关性;2)设计了特征解耦正则化项,该正则化项基于协方差矩阵的Frobenius范数,能够有效地惩罚特征之间的相关性;3)将该正则化项添加到动态偏好优化目标函数中,通过调整正则化系数来控制特征解耦的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的特征解耦正则化方法能够有效增强表征多样性和激活稀疏性,并且显著提升了偏好对齐性能。具体来说,该方法在偏好对齐任务上取得了优于现有基线方法的结果,证明了鼓励单义性的有效性。实验还验证了单义性与模型能力之间的正相关性,为单义性研究提供了有力的证据。

🎯 应用场景

该研究成果可应用于提升大型语言模型的性能和可解释性。通过鼓励单义性,可以使模型更好地理解和表达不同的概念,从而提高其在各种自然语言处理任务中的表现。此外,该方法还有助于提高模型的可控性,使其能够更好地对齐人类的偏好。

📄 摘要(原文)

To better interpret the intrinsic mechanism of large language models (LLMs), recent studies focus on monosemanticity on its basic units. A monosemantic neuron is dedicated to a single and specific concept, which forms a one-to-one correlation between neurons and concepts. Despite extensive research in monosemanticity probing, it remains unclear whether monosemanticity is beneficial or harmful to model capacity. To explore this question, we revisit monosemanticity from the feature decorrelation perspective and advocate for its encouragement. We experimentally observe that the current conclusion by wang2024learning, which suggests that decreasing monosemanticity enhances model performance, does not hold when the model changes. Instead, we demonstrate that monosemanticity consistently exhibits a positive correlation with model capacity, in the preference alignment process. Consequently, we apply feature correlation as a proxy for monosemanticity and incorporate a feature decorrelation regularizer into the dynamic preference optimization process. The experiments show that our method not only enhances representation diversity and activation sparsity but also improves preference alignment performance.