DOTResize: Reducing LLM Width via Discrete Optimal Transport-based Neuron Merging

📄 arXiv: 2507.04517v1 📥 PDF

作者: Neha Verma, Kenton Murray, Kevin Duh

分类: cs.LG, cs.CL

发布日期: 2025-07-06


💡 一句话要点

DOTResize:通过基于离散最优传输的神经元合并减少LLM宽度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型压缩 神经元合并 最优传输 大型语言模型 Transformer 宽度缩减 熵正则化 矩阵分解

📋 核心要点

  1. 大型语言模型存在计算冗余,现有神经元剪枝方法基于重要性度量丢弃神经元,可能损失有用信息。
  2. DOTResize将神经元宽度缩减视为离散最优传输问题,通过最优传输理论转换和压缩模型权重,保留并重新分配有用信号。
  3. 实验结果表明,DOTResize在多个LLM系列和大小上优于现有的神经元宽度剪枝技术,并有效降低了计算成本。

📝 摘要(中文)

模型压缩为降低大型预训练模型的成本和不可访问性提供了一条有希望的途径,同时不会显著降低其卓越的性能。大型Transformer模型,包括大型语言模型(LLM),通常包含计算冗余,这可以作为新的模型压缩方法的目标。在这项工作中,我们特别针对模型层中的神经元级冗余,通过将相似的神经元组合成更少的神经元来实现。我们将这种宽度缩减定义为一个离散最优传输问题,并提出了DOTResize,一种新颖的Transformer压缩方法,它使用最优传输理论来转换和压缩模型权重。为了确保在Transformer架构中的适用性,我们将熵正则化和矩阵分解融入到我们方法产生的传输映射中。与基于重要性度量丢弃神经元的剪枝方法不同,DOTResize重新投影整个神经元宽度,从而允许保留和重新分配缩减层中的有用信号。经验结果表明,与简单或最先进的神经元宽度剪枝技术相比,DOTResize可以在多个LLM系列和大小上优于这些方法,同时实现实际计算成本的可衡量降低。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的计算冗余问题,特别是神经元级别的冗余。现有的神经元剪枝方法通常基于某种重要性度量来丢弃神经元,这可能导致有用信息的丢失,从而影响模型的性能。此外,简单地移除神经元而不进行重新分配也可能导致模型表达能力的下降。

核心思路:论文的核心思路是将神经元宽度缩减问题建模为一个离散最优传输(Discrete Optimal Transport, DOT)问题。通过最优传输理论,可以将相似的神经元合并成更少的神经元,同时保留和重新分配原始神经元中的有用信号。这种方法避免了简单地丢弃神经元,而是通过重新投影整个神经元宽度来实现更有效的模型压缩。

技术框架:DOTResize方法主要包含以下几个阶段:1) 相似性度量:首先,需要定义神经元之间的相似性度量,用于确定哪些神经元应该被合并。2) 最优传输映射:然后,利用离散最优传输理论,计算一个传输映射,该映射描述了如何将原始神经元的权重重新分配到缩减后的神经元中。为了保证在Transformer架构中的适用性,论文引入了熵正则化和矩阵分解。熵正则化可以使传输映射更加平滑,避免出现过于集中的权重分配。矩阵分解则可以降低计算复杂度,提高算法的效率。3) 权重更新:最后,根据计算得到的传输映射,更新模型的权重,完成神经元宽度的缩减。

关键创新:DOTResize的关键创新在于将神经元宽度缩减问题建模为一个离散最优传输问题,并利用最优传输理论来指导神经元的合并和权重重新分配。与传统的剪枝方法相比,DOTResize不是简单地丢弃神经元,而是通过重新投影整个神经元宽度来保留和重新分配有用信号,从而避免了信息损失。此外,论文还引入了熵正则化和矩阵分解等技术,以提高算法的效率和适用性。

关键设计:在DOTResize中,关键的设计包括:1) 相似性度量:可以使用余弦相似度等方法来度量神经元之间的相似性。2) 熵正则化:在最优传输问题的目标函数中加入熵正则化项,以控制传输映射的平滑度。3) 矩阵分解:将传输映射分解为多个矩阵的乘积,以降低计算复杂度。4) 超参数:需要调整熵正则化系数等超参数,以获得最佳的压缩效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DOTResize在多个LLM系列和大小上优于现有的神经元宽度剪枝技术。例如,在某些模型上,DOTResize可以在保持性能的同时,将模型宽度减少高达50%,并显著降低计算成本。与传统的剪枝方法相比,DOTResize能够更好地保留模型的性能,并实现更有效的模型压缩。

🎯 应用场景

DOTResize具有广泛的应用前景,可用于压缩各种大型语言模型,降低其计算成本和存储需求,使其更容易部署在资源受限的设备上,例如移动设备和嵌入式系统。该方法还可以应用于其他类型的神经网络,以实现更高效的模型压缩和加速。此外,DOTResize还可以促进模型的可解释性,通过分析神经元的合并关系,可以更好地理解模型的内部工作机制。

📄 摘要(原文)

Model compression offers a promising path to reducing the cost and inaccessibility of large pre-trained models, without significantly compromising their impressive performance. Large Transformer models, including large language models (LLMs), often contain computational redundancy, which can serve as a target for new model compression methods. In this work, we specifically target neuron-level redundancies in model layers by combining groups of similar neurons into fewer neurons. We frame this width reduction as a Discrete Optimal Transport problem, and propose DOTResize, a novel Transformer compression method that uses optimal transport theory to transform and compress model weights. To ensure applicability within the Transformer architecture, we motivate and incorporate entropic regularization and matrix factorization into the transportation maps produced by our method. Unlike pruning-based approaches which discard neurons based on importance measures, DOTResize re-projects the entire neuron width, allowing the retention and redistribution of useful signal across the reduced layer. Empirical results show that compared to simple or state-of-the-art neuron width-pruning techniques, DOTResize can outperform these methods across multiple LLM families and sizes, while achieving measurable reductions in real-world computational cost.