DART-ing Through the Drift: Dynamic Tracing of Knowledge Neurons for Adaptive Inference-Time Pruning
作者: Abhishek Tyagi, Yunuo Cen, Shrey Dhorajiya, Bharadwaj Veeravalli, Xuanyao Fong
分类: cs.CL, cs.LG
发布日期: 2026-01-30
🔗 代码/项目: GITHUB
💡 一句话要点
DART:通过动态追踪知识神经元实现自适应推理时剪枝
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理时剪枝 动态剪枝 注意力机制 知识神经元
📋 核心要点
- 现有剪枝方法依赖数据集校准,引入数据依赖和计算开销,且静态剪枝无法适应上下文变化的知识神经元。
- DART通过动态追踪注意力分数分布变化来推断上下文,并动态更新神经元掩码,实现上下文自适应的推理时剪枝。
- 实验表明,DART在LLAMA-3.1-8B上实现了高达14.5%的准确率提升,并在摘要任务上取得了显著的ROUGE-L分数提升。
📝 摘要(中文)
大型语言模型(LLMs)表现出显著的参数冗余,尤其是在前馈网络(FFNs)中。现有的剪枝方法存在两个主要限制。首先,依赖于数据集特定的校准引入了显著的数据依赖性和计算开销。其次,它们主要是静态的,无法解释LLMs在自回归生成过程中随着上下文演变而变化的知识神经元子集。为了解决这个问题,我们引入了DART(即动态注意力引导运行时追踪),这是一种轻量级的、无需训练的方法,可以执行基于上下文的即时剪枝。DART监控注意力分数分布的变化以推断上下文变化,动态更新神经元级别的掩码以保留显著的参数。在十个基准测试中,DART优于先前的动态基线,在70% FFN稀疏度下,在LLAMA-3.1-8B上实现了高达14.5%的准确率提升。此外,DART在摘要任务上实现了比静态掩码剪枝高出3倍的ROUGE-L分数,其性能与原始密集模型相当。我们最终证明,所提出的框架有效地适应了不同的语义上下文,在通用和特定领域的任务中都保持了模型的能力,同时对于LLAMA-3.1-8B(16GBs)来说,运行内存小于10MB,FLOPs开销为0.1%。代码可在https://github.com/seeder-research/DART 获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中前馈网络(FFNs)的参数冗余问题,并克服现有剪枝方法的局限性。现有方法主要依赖于数据集特定的校准,导致数据依赖性和计算开销较高。此外,现有方法大多是静态的,无法适应LLMs在自回归生成过程中,随着上下文变化而动态变化的知识神经元子集。
核心思路:DART的核心思路是利用注意力机制来动态追踪LLM中知识神经元的变化。通过监控注意力分数分布的变化,DART能够推断出上下文的变化,并动态地更新神经元级别的掩码,从而保留对当前上下文最重要的参数。这种动态剪枝的方法能够更好地适应不同的语义上下文,提高模型的性能。
技术框架:DART的技术框架主要包括以下几个步骤:1. 注意力分数监控:实时监控LLM中每一层前馈网络的注意力分数分布。2. 上下文变化检测:通过分析注意力分数分布的变化,判断上下文是否发生了改变。3. 神经元掩码更新:根据上下文变化的情况,动态地更新神经元级别的掩码,保留对当前上下文最重要的神经元。4. 推理执行:使用更新后的掩码进行推理,从而实现动态剪枝。
关键创新:DART最重要的技术创新点在于其动态性和上下文自适应性。与传统的静态剪枝方法不同,DART能够根据上下文的变化动态地调整剪枝策略,从而更好地适应不同的任务和数据集。此外,DART是一种无需训练的方法,避免了数据集依赖和计算开销。
关键设计:DART的关键设计包括:1. 注意力分数监控机制:设计了一种高效的注意力分数监控机制,能够实时地获取LLM中每一层前馈网络的注意力分数。2. 上下文变化检测算法:开发了一种能够准确地检测上下文变化的算法,该算法能够根据注意力分数分布的变化来判断上下文是否发生了改变。3. 神经元掩码更新策略:设计了一种能够动态地更新神经元掩码的策略,该策略能够根据上下文变化的情况,保留对当前上下文最重要的神经元。
🖼️ 关键图片
📊 实验亮点
DART在十个基准测试中表现出色,优于先前的动态基线,在LLAMA-3.1-8B模型上,70% FFN稀疏度下实现了高达14.5%的准确率提升。在摘要任务上,DART实现了比静态掩码剪枝高出3倍的ROUGE-L分数,其性能与原始密集模型相当。此外,DART的内存占用极小,对于LLAMA-3.1-8B(16GBs)来说,运行内存小于10MB,FLOPs开销仅为0.1%。
🎯 应用场景
DART具有广泛的应用前景,可用于各种需要高效推理的大型语言模型应用,例如:移动设备上的LLM部署、低延迟对话系统、资源受限环境下的自然语言处理任务等。通过减少模型参数和计算量,DART能够显著提高LLM的推理速度和效率,降低部署成本,并使其能够在更多场景下应用。
📄 摘要(原文)
Large Language Models (LLMs) exhibit substantial parameter redundancy, particularly in Feed-Forward Networks (FFNs). Existing pruning methods suffer from two primary limitations. First, reliance on dataset-specific calibration introduces significant data dependency and computational overhead. Second, being predominantly static, they fail to account for the evolving subset of knowledge neurons in LLMs during autoregressive generation as the context evolves. To address this, we introduce DART, i.e., Dynamic Attention-Guided Runtime Tracing), a lightweight, training-free method that performs on-the-fly context-based pruning. DART monitors shifts in attention score distributions to infer context changes, dynamically updating neuron-level masks to retain salient parameters. Across ten benchmarks, DART outperforms prior dynamic baseline, achieving accuracy gains of up to 14.5% on LLAMA-3.1-8B at 70% FFN sparsity. Furthermore, DART achieves up to 3x better ROUGE-L scores with respect to static-masked pruning on summarization tasks, with its performance comparable to the original dense models. We conclusively demonstrate that the proposed framework effectively adapts to diverse semantic contexts, preserves model capabilities across both general and domain-specific tasks while running at less than 10MBs of memory for LLAMA-3.1-8B(16GBs) with 0.1% FLOPs overhead. The code is available at https://github.com/seeder-research/DART.