GeLaCo: An Evolutionary Approach to Layer Compression
作者: David Ponce, Thierry Etchegoyhen, Javier Del Ser
分类: cs.CL
发布日期: 2025-07-14
💡 一句话要点
提出GeLaCo以解决大语言模型压缩问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型压缩 进化算法 大语言模型 Pareto前沿 适应度函数 层崩溃 自然语言处理
📋 核心要点
- 现有模型压缩方法在寻找最佳变体时通常需要昂贵的经验搜索,且可能忽视更优解。
- GeLaCo通过层崩溃的进化方法,利用种群搜索和模块相似性适应度函数来高效探索压缩空间。
- 实验结果显示,GeLaCo在困惑度和生成评估上超越了当前最先进的替代方案。
📝 摘要(中文)
大型语言模型(LLM)在众多任务中表现出色,但由于计算需求高,面临部署和使用的重大障碍。模型压缩方法旨在减少模型大小,同时保持其能力,是缓解这些问题的重要手段。现有的结构化剪枝方法通常需要昂贵的经验搜索以寻找最佳变体,并可能忽视更好的解决方案。本文提出了GeLaCo,一种通过层崩溃实现LLM压缩的进化方法。该方法通过基于种群的搜索和模块间相似性适应度函数高效探索压缩解决方案空间,并支持单目标和多目标进化压缩搜索,建立了压缩与质量轴上的首个Pareto前沿。我们通过困惑度和生成评估对GeLaCo解决方案进行了评估,结果超越了现有的最先进方法。
🔬 方法详解
问题定义:本文旨在解决大型语言模型的压缩问题,现有方法在寻找最佳压缩方案时面临高计算成本和可能的次优解风险。
核心思路:GeLaCo采用进化算法,通过层崩溃实现模型压缩,利用种群搜索和模块间相似性适应度函数来高效探索压缩解决方案。
技术框架:整体架构包括种群初始化、适应度评估、选择、交叉和变异等模块,支持单目标和多目标的进化搜索,形成压缩与质量的Pareto前沿。
关键创新:GeLaCo的核心创新在于其进化搜索策略和模块相似性适应度函数的结合,使得压缩过程更加高效且全面,区别于传统的经验搜索方法。
关键设计:在设计中,适应度函数考虑了注意力机制、前馈网络和隐藏状态的相似性,确保压缩后模型的性能不受影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GeLaCo在困惑度评估中表现优于现有最先进方法,具体提升幅度达到XX%,在生成评估中也展现出更高的质量,验证了其有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等,能够显著降低模型的计算需求,提高部署效率。未来,GeLaCo可能推动更广泛的模型压缩技术发展,促进大规模模型在资源受限环境中的应用。
📄 摘要(原文)
Large Language Models (LLM) have achieved remarkable performance across a large number of tasks, but face critical deployment and usage barriers due to substantial computational requirements. Model compression methods, which aim to reduce model size while preserving its capacity, are an important means to mitigate these issues. Promising approaches along these lines, such as structured pruning, typically require costly empirical search for optimal variants and may run the risk of ignoring better solutions. In this work we introduce GeLaCo, an evolutionary approach to LLM compression via layer collapse. Our approach supports an efficient exploration of the compression solution space via population-based search and a module-wise similarity fitness function capturing attention, feed-forward, and hidden state representations. GeLaCo also supports both single and multi-objective evolutionary compression search, establishing the first Pareto frontier along compression and quality axes. We evaluate GeLaCo solutions via both perplexity-based and generative evaluations over foundational and instruction-tuned models, outperforming state-of-the-art alternatives.