Sparse Brains are Also Adaptive Brains: Cognitive-Load-Aware Dynamic Activation for LLMs
作者: Yiheng Yang, Yujie Wang, Chi Ma, Lei Yu, Emmanuele Chersoni, Chu-Ren Huang
分类: cs.CL
发布日期: 2025-02-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出CLADA框架以解决大语言模型的效率瓶颈问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 动态激活 认知负荷 稀疏性 效率提升 生物启发AI 模型优化
📋 核心要点
- 现有的密集型大语言模型在处理复杂输入时效率低下,无法根据上下文动态调整参数激活。
- CLADA框架结合了统计稀疏性与语义适应性,通过实时认知信号动态调整激活,提升模型效率。
- 实验表明,CLADA在多个基准测试中实现了约20%的速度提升,且准确率损失小于2%,优于现有方法。
📝 摘要(中文)
密集型大语言模型(LLMs)在处理输入复杂性时面临效率瓶颈,因为它们会无差别地激活所有参数。现有的稀疏性方法(如静态剪枝或动态激活)在一定程度上解决了这一问题,但缺乏对上下文或模型结构需求的适应性,或导致计算开销过大。受人脑双重过程机制的启发,本文提出了CLADA(认知负荷感知动态激活)框架,结合了统计稀疏性和语义适应性。CLADA通过分层阈值策略实现40%以上的稀疏性,并根据实时认知信号动态调整。实验结果表明,CLADA在六个主流LLM和九个基准测试中实现了约20%的速度提升,且准确率下降小于2%。
🔬 方法详解
问题定义:本文旨在解决密集型大语言模型在处理输入复杂性时的效率瓶颈问题。现有方法如静态剪枝和动态激活要么缺乏适应性,要么计算开销过大。
核心思路:CLADA框架的核心思想是结合人脑的双重过程机制,通过认知负荷感知动态调整模型的激活方式,以实现更高的效率和适应性。
技术框架:CLADA采用分层阈值策略,首先通过离线误差控制优化确保40%以上的稀疏性,然后根据实时的认知信号(如惊讶度和熵)动态调整激活。
关键创新:CLADA首次建立了神经语言事件相关电位(ERP)成分与大语言模型效率机制之间的正式联系,提供了新的视角来理解模型的激活机制。
关键设计:CLADA的设计包括基于认知负荷的动态阈值调整,确保在不需要重新训练或改变模型架构的情况下实现高效推理。
🖼️ 关键图片
📊 实验亮点
CLADA在六个主流大语言模型和九个基准测试中实现了约20%的速度提升,同时准确率下降小于2%。与基线方法Griffin相比,CLADA的性能显著优越,后者的准确率下降超过5%。
🎯 应用场景
CLADA框架具有广泛的应用潜力,尤其在资源受限的环境中进行大语言模型推理时,可以显著提高效率。其生物启发的设计理念也为未来的人工智能系统提供了新的思路,可能推动更智能的模型开发。
📄 摘要(原文)
Dense large language models(LLMs) face critical efficiency bottlenecks as they rigidly activate all parameters regardless of input complexity. While existing sparsity methods(static pruning or dynamic activation) address this partially, they either lack adaptivity to contextual or model structural demands or incur prohibitive computational overhead. Inspired by human brain's dual-process mechanisms - predictive coding (N400) for backbone sparsity and structural reanalysis (P600) for complex context - we propose CLADA, a \textit{\textbf{C}ognitive-\textbf{L}oad-\textbf{A}ware \textbf{D}ynamic \textbf{A}ctivation} framework that synergizes statistical sparsity with semantic adaptability. Our key insight is that LLM activations exhibit two complementary patterns: 1) \textit{Global statistical sparsity} driven by sequence-level prefix information, and 2) \textit{Local semantic adaptability} modulated by cognitive load metrics(e.g., surprisal and entropy). CLADA employs a hierarchical thresholding strategy: a baseline from offline error-controlled optimization ensures 40\%+ sparsity, dynamically adjusted by real-time cognitive signals. Evaluations across six mainstream LLMs and nine benchmarks demonstrate that CLADA achieves \textbf{~20\% average speedup with <2\% accuracy drop}, outperforming Griffin (5\%+ degradation) and TT (negligible speedup). Crucially, we establish the first formal connection between neurolinguistic event-related potential (ERP) components and LLM efficiency mechanisms through multi-level regression analysis ($R^2=0.17$ for sparsity-adaptation synergy). Requiring no retraining or architectural changes, CLADA offers a deployable solution for resource-aware LLM inference while advancing biologically-inspired AI design. Our code is available at \href{https://github.com/Oldify/CLADA}{CLADA}.