Discovering Decoupled Functional Modules in Large Language Models

📄 arXiv: 2603.17823v1 📥 PDF

作者: Yanke Yu, Jin Li, Ying Sun, Ping Li, Zhefeng Wang, Yi Zheng

分类: cs.LG, cs.CL

发布日期: 2026-03-18

备注: AAAI-26 Oral


💡 一句话要点

提出ULCMOD框架,用于无监督地发现大语言模型中解耦的功能模块。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 功能模块发现 无监督学习 模型可解释性 神经元解耦

📋 核心要点

  1. 现有方法难以有效发现LLM内部的功能模块,阻碍了对其内部机制的理解和信任。
  2. ULCMOD框架通过新颖的目标函数和迭代解耦算法,无监督地将LLM神经元解耦为功能模块。
  3. 实验表明,该方法发现的模块具有语义连贯性,并在下游任务中表现出优越的性能。

📝 摘要(中文)

理解大型语言模型(LLM)的内部功能组织对于提高其可信度和性能至关重要。然而,LLM如何将不同的功能组织成模块仍然很大程度上未被探索。为了弥补这一差距,我们提出了一个功能模块发现问题,并提出了一个无监督的LLM跨层模块发现(ULCMOD)框架,该框架同时将整个LLM中的大量神经元解耦成模块,同时发现与这些模块相关的输入样本的主题。我们的框架引入了一个新的目标函数和一个有效的迭代解耦(IterD)算法。大量的实验表明,我们的方法发现了高质量的、解耦的模块,这些模块捕获了更有意义的语义信息,并在各种下游任务中实现了卓越的性能。此外,我们的定性分析表明,所发现的模块显示出语义连贯性,对应于可解释的专业化,以及LLM内部清晰的空间和分层组织。我们的工作为解释LLM的功能模块提供了一种新的工具,填补了LLM可解释性研究中的一个关键空白。

🔬 方法详解

问题定义:论文旨在解决如何在大语言模型(LLM)中发现解耦的功能模块的问题。现有方法通常难以有效地将LLM中的大量神经元划分成具有明确语义的功能模块,这限制了我们对LLM内部工作机制的理解,也阻碍了我们对其进行优化和改进。现有方法的痛点在于缺乏有效的无监督方法来同时解耦神经元和发现相关主题。

核心思路:论文的核心思路是通过无监督学习的方式,同时将LLM中的神经元解耦成不同的模块,并发现与这些模块相关的输入样本的主题。这种联合解耦和主题发现的方法能够更好地揭示LLM内部的功能组织,并提高模块的语义一致性。设计思路的关键在于构建一个能够同时优化模块解耦和主题发现的目标函数。

技术框架:ULCMOD框架包含以下主要模块:1) 神经元表示模块:将LLM中的神经元表示为向量。2) 模块解耦模块:使用迭代解耦(IterD)算法,将神经元分配到不同的模块中。3) 主题发现模块:发现与每个模块相关的输入样本的主题。整个流程是迭代进行的,模块解耦和主题发现相互促进,最终得到高质量的解耦模块。

关键创新:该论文最重要的技术创新点在于提出了一个新颖的目标函数,该函数能够同时优化模块的解耦程度和模块内神经元的语义一致性。此外,提出的IterD算法能够有效地解决目标函数的优化问题,并实现高效的模块解耦。与现有方法相比,ULCMOD框架能够更准确地发现LLM中的功能模块,并提高模块的语义可解释性。

关键设计:目标函数包含两部分:一是模块解耦项,鼓励不同模块之间的神经元尽可能独立;二是语义一致性项,鼓励同一模块内的神经元具有相似的语义表示。IterD算法通过迭代地更新神经元的模块分配和模块主题,逐步优化目标函数。具体的参数设置包括模块数量、迭代次数等。损失函数的设计旨在最大化模块间的独立性和模块内的语义一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ULCMOD框架能够发现高质量的、解耦的模块,这些模块捕获了更有意义的语义信息,并在各种下游任务中实现了卓越的性能。定性分析表明,所发现的模块显示出语义连贯性,对应于可解释的专业化,以及LLM内部清晰的空间和分层组织。相较于其他无监督方法,ULCMOD在模块解耦度和语义一致性方面均有显著提升。

🎯 应用场景

该研究成果可应用于LLM的可解释性分析、模型压缩和优化。通过理解LLM内部的功能模块,可以更好地诊断模型错误、提高模型鲁棒性,并为模型编辑和知识注入提供指导。此外,该方法还可以用于发现LLM中的冗余模块,从而实现模型压缩,降低计算成本。未来,该研究有望推动LLM在各个领域的更广泛应用。

📄 摘要(原文)

Understanding the internal functional organization of Large Language Models (LLMs) is crucial for improving their trustworthiness and performance. However, how LLMs organize different functions into modules remains highly unexplored. To bridge this gap, we formulate a functional module discovery problem and propose an Unsupervised LLM Cross-layer MOdule Discovery (ULCMOD) framework that simultaneously disentangles the large set of neurons in the entire LLM into modules while discovering the topics of input samples related to these modules. Our framework introduces a novel objective function and an efficient Iterative Decoupling (IterD) algorithm. Extensive experiments show that our method discovers high-quality, disentangled modules that capture more meaningful semantic information and achieve superior performance in various downstream tasks. Moreover, our qualitative analysis reveals that the discovered modules show semantic coherence, correspond to interpretable specializations, and a clear spatial and hierarchical organization within the LLM. Our work provides a novel tool for interpreting the functional modules of LLMs, filling a critical blank in LLM's interpretability research.