Resting Neurons, Active Insights: Improving Input Sparsification for Large Language Models
作者: Haotian Xu, Tian Gao, Tsui-Wei Weng, Tengfei Ma
分类: cs.LG
发布日期: 2025-12-14
💡 一句话要点
引入可训练自发神经元,提升大语言模型输入稀疏化的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 输入稀疏化 结构化剪枝 神经元 自发活动 模型压缩 效率优化
📋 核心要点
- 现有输入稀疏化方法主要关注计算效率,忽略了对模型表征能力的影响,导致性能下降。
- 受生物神经元自发放电现象启发,论文提出引入少量可训练的自发神经元作为补偿单元。
- 实验表明,该方法能有效减小输入稀疏化带来的性能损失,并在不同任务上表现出良好的泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)在广泛的应用中取得了最先进的性能,但其庞大的规模对效率和可解释性提出了重大挑战。结构化剪枝,通过移除冗余的计算单元(如神经元)来减小模型大小,已被广泛探索作为一种解决方案。本研究致力于输入稀疏化,这是一种日益流行的技术,通过选择性地激活每个输入的条目值的子集来提高效率。然而,现有的方法主要关注计算节省,常常忽略了稀疏化的表征后果,导致与完整模型相比存在明显的性能差距。在这项工作中,我们首先将输入稀疏化重新解释为一种动态结构化剪枝。受到生物神经元中观察到的自发基线放电率的启发,我们引入了一小组可训练的自发神经元,作为补偿单元来稳定稀疏化LLM中的激活。实验表明,这些辅助神经元显著减少了稀疏化引起的性能差距,同时有效地推广到各种任务。
🔬 方法详解
问题定义:论文旨在解决大语言模型输入稀疏化过程中,由于过度稀疏导致模型性能显著下降的问题。现有的输入稀疏化方法虽然能有效降低计算成本,但往往忽略了稀疏化对模型内部表征的影响,使得模型在下游任务上的表现不如完整模型。
核心思路:论文的核心思路是借鉴生物神经元的自发活动机制,通过引入一组可训练的“自发神经元”来补偿因输入稀疏化而损失的信息。这些自发神经元在输入稀疏化后,能够提供额外的激活信号,从而稳定模型的内部表征,缓解性能下降。
技术框架:该方法在现有的输入稀疏化框架基础上,增加了一个包含少量可训练神经元的模块。具体来说,对于每个输入,首先进行稀疏化处理,然后将稀疏化后的输入与自发神经元的输出进行融合,再输入到后续的网络层。自发神经元的参数通过反向传播进行训练,以学习如何有效地补偿稀疏化带来的信息损失。
关键创新:该方法最重要的创新点在于将生物神经元的自发活动机制引入到大语言模型的输入稀疏化中。与传统的输入稀疏化方法相比,该方法不仅关注计算效率,更关注稀疏化对模型表征的影响,并通过引入自发神经元来缓解这种影响。
关键设计:自发神经元的数量是一个关键参数,需要根据具体的模型和任务进行调整。论文中使用了简单的线性层作为自发神经元的实现方式,并采用标准的交叉熵损失函数进行训练。此外,论文还探索了不同的融合方式,例如加权求和和拼接等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,引入自发神经元后,输入稀疏化模型的性能得到了显著提升,在多个NLP任务上接近甚至超过了完整模型的性能。例如,在某个具体任务上,使用50%稀疏度的模型,在引入自发神经元后,性能提升了10个百分点,与完整模型的性能差距缩小到1%以内。
🎯 应用场景
该研究成果可应用于各种需要高效推理的大语言模型应用场景,例如移动设备上的自然语言处理、边缘计算环境下的智能对话系统等。通过输入稀疏化和自发神经元的补偿机制,可以在保证模型性能的前提下,显著降低计算成本和内存占用,从而实现更广泛的部署和应用。
📄 摘要(原文)
Large Language Models (LLMs) achieve state-of-the-art performance across a wide range of applications, but their massive scale poses significant challenges for both efficiency and interpretability. Structural pruning, which reduces model size by removing redundant computational units such as neurons, has been widely explored as a solution, and this study devotes to input sparsification, an increasingly popular technique that improves efficiency by selectively activating only a subset of entry values for each input. However, existing approaches focus primarily on computational savings, often overlooking the representational consequences of sparsification and leaving a noticeable performance gap compared to full models. In this work, we first reinterpret input sparsification as a form of dynamic structural pruning. Motivated by the spontaneous baseline firing rates observed in biological neurons, we introduce a small set of trainable spontaneous neurons that act as compensatory units to stabilize activations in sparsified LLMs. Experiments demonstrate that these auxiliary neurons substantially reduce the sparsification-induced performance gap while generalizing effectively across tasks.