Making Large Language Models Efficient Dense Retrievers
作者: Yibin Lei, Shwai He, Ang Li, Andrew Yates
分类: cs.IR, cs.CL
发布日期: 2025-12-23
💡 一句话要点
提出EffiR框架,通过MLP压缩提升LLM密集检索器的效率,同时保持性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 密集检索 模型压缩 层冗余 MLP剪枝
📋 核心要点
- 现有基于LLM的密集检索器参数量巨大,计算效率低,限制了其应用。
- EffiR框架通过分析LLM层冗余,重点压缩MLP层,保留关键的注意力层,实现高效检索。
- 实验表明,EffiR在保持性能的同时,显著降低了模型大小和推理成本,适用于多种LLM和数据集。
📝 摘要(中文)
最近的研究表明,直接微调大型语言模型(LLM)用于密集检索可以获得强大的性能,但其庞大的参数量导致计算效率低下。虽然之前的研究已经揭示了LLM在生成任务中存在显著的层冗余,但当这些模型被用于检索任务时,是否存在类似的冗余仍然不清楚,因为检索任务需要将整个序列编码成固定的表示,而不是迭代地生成token。为此,我们对基于LLM的密集检索器中的层冗余进行了全面的分析。我们发现,与生成设置相比,MLP层更容易被剪枝,而注意力层对于语义聚合仍然至关重要。基于这一洞察,我们提出了EffiR,一个用于开发高效检索器的框架,该框架通过粗到细的策略(粗粒度的深度缩减,然后是细粒度的宽度缩减)执行大规模的MLP压缩,并结合了特定于检索的微调。在不同的BEIR数据集和LLM骨干网络上,EffiR在保持全尺寸模型性能的同时,显著降低了模型大小和推理成本。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在密集检索任务中计算效率低下的问题。现有方法直接微调LLM进行检索,虽然性能优异,但模型参数量巨大,推理成本高昂,难以实际部署。现有研究表明LLM在生成任务中存在层冗余,但检索任务的特性(序列编码而非token生成)使得冗余情况未知。
核心思路:论文的核心思路是探索LLM在检索任务中的层冗余,并针对性地进行模型压缩。通过分析发现,MLP层在检索任务中比注意力层更具冗余性。因此,EffiR框架重点压缩MLP层,同时保留关键的注意力层,以在保持性能的同时降低模型大小和推理成本。
技术框架:EffiR框架包含以下主要阶段:1) 层冗余分析:分析LLM各层对检索性能的贡献,确定可压缩的层。2) 粗粒度深度缩减:移除部分MLP层,大幅降低模型深度。3) 细粒度宽度缩减:对剩余MLP层进行剪枝,进一步降低模型宽度。4) 检索特定微调:在检索数据集上对压缩后的模型进行微调,恢复性能。
关键创新:EffiR的关键创新在于:1) 针对检索任务的LLM层冗余分析,发现MLP层更易压缩。2) 提出粗到细的MLP压缩策略,兼顾模型深度和宽度。3) 结合检索特定微调,有效恢复压缩带来的性能损失。与现有方法相比,EffiR更关注检索任务的特性,并针对性地进行模型压缩。
关键设计:EffiR的关键设计包括:1) 使用BEIR数据集进行层冗余分析和性能评估。2) 采用不同的LLM骨干网络(如BERT、RoBERTa)验证框架的通用性。3) 粗粒度深度缩减时,采用启发式方法选择要移除的MLP层。4) 细粒度宽度缩减时,采用基于重要性的剪枝方法。5) 检索特定微调时,使用对比学习损失函数,优化模型在检索任务上的表示能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EffiR在多个BEIR数据集上,使用不同的LLM骨干网络,均能显著降低模型大小和推理成本,同时保持与全尺寸模型相当的检索性能。例如,在一些数据集上,EffiR可以将模型大小降低50%以上,推理速度提升2倍以上,而性能损失仅在1%以内。这些结果验证了EffiR框架的有效性和通用性。
🎯 应用场景
EffiR框架可应用于各种需要高效文本检索的场景,例如:搜索引擎、问答系统、推荐系统等。通过降低LLM检索器的模型大小和推理成本,EffiR使得在资源受限的环境(如移动设备、边缘计算)中部署高性能检索服务成为可能。此外,该研究也为未来开发更高效的LLM检索器提供了新的思路。
📄 摘要(原文)
Recent work has shown that directly fine-tuning large language models (LLMs) for dense retrieval yields strong performance, but their substantial parameter counts make them computationally inefficient. While prior studies have revealed significant layer redundancy in LLMs for generative tasks, it remains unclear whether similar redundancy exists when these models are adapted for retrieval tasks, which require encoding entire sequences into fixed representations rather than generating tokens iteratively. To this end, we conduct a comprehensive analysis of layer redundancy in LLM-based dense retrievers. We find that, in contrast to generative settings, MLP layers are substantially more prunable, while attention layers remain critical for semantic aggregation. Building on this insight, we propose EffiR, a framework for developing efficient retrievers that performs large-scale MLP compression through a coarse-to-fine strategy (coarse-grained depth reduction followed by fine-grained width reduction), combined with retrieval-specific fine-tuning. Across diverse BEIR datasets and LLM backbones, EffiR achieves substantial reductions in model size and inference cost while preserving the performance of full-size models.