DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers

📄 arXiv: 2502.18460v2 📥 PDF

作者: Xueguang Ma, Xi Victoria Lin, Barlas Oguz, Jimmy Lin, Wen-tau Yih, Xilun Chen

分类: cs.CL, cs.IR

发布日期: 2025-02-25 (更新: 2025-06-03)

备注: ACL 2025


💡 一句话要点

DRAMA:利用大语言模型增强小规模稠密检索器的多样性训练

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稠密检索 大语言模型 数据增强 对比学习 知识蒸馏

📋 核心要点

  1. 大型语言模型作为检索器虽然有效,但参数量巨大,导致推理成本高昂,难以实际部署。
  2. DRAMA框架利用剪枝后的LLM作为骨干网络,通过LLM增强数据进行对比学习,训练更小且泛化能力强的检索器。
  3. 实验表明,DRAMA在多语言和长文本检索任务上优于传统方法,证明了其有效性和泛化能力。

📝 摘要(中文)

大型语言模型(LLMs)在作为稠密检索器进行微调时,展现出强大的有效性和鲁棒性。然而,它们庞大的参数规模带来了显著的推理时间计算挑战,包括大规模语料库的高编码成本和增加的查询延迟,限制了它们的实际部署。虽然较小的检索器提供了更好的效率,但它们通常难以通过有限的监督微调数据有效地泛化。在这项工作中,我们介绍了一种名为DRAMA的训练框架,该框架利用LLM来训练更小的、可泛化的稠密检索器。特别地,我们采用剪枝后的LLM作为骨干网络,并在单阶段对比学习设置中,基于多样化的LLM增强数据进行训练。实验表明,DRAMA比传统的基于编码器的检索器具有更好的多语言和长上下文能力,并在多个任务和语言上实现了强大的性能。这些结果突出了将较小检索器的训练与LLM不断增长的进步联系起来的潜力,从而弥合了效率和泛化之间的差距。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)作为稠密检索器时,由于参数量巨大而导致的推理效率低下问题。现有的小型检索器虽然效率高,但泛化能力不足,难以在有限的监督数据上取得良好效果。因此,如何利用LLM的知识来提升小型检索器的性能,同时保持其高效性,是本研究要解决的核心问题。

核心思路:论文的核心思路是利用LLM生成多样化的增强数据,并使用这些数据来训练小型稠密检索器。通过这种方式,小型检索器可以学习到LLM的知识,从而提高其泛化能力。同时,采用剪枝后的LLM作为骨干网络,进一步降低了模型的参数量,提高了推理效率。

技术框架:DRAMA框架主要包含以下几个步骤:1) 使用LLM生成多样化的增强数据,包括不同的查询和文档变体;2) 采用剪枝后的LLM作为骨干网络,构建小型稠密检索器;3) 在单阶段对比学习设置中,使用增强数据对小型检索器进行训练。对比学习的目标是使正样本(相关的查询和文档)的向量表示更接近,而负样本(不相关的查询和文档)的向量表示更远离。

关键创新:论文的关键创新在于提出了一种利用LLM增强数据来训练小型检索器的框架。与传统的知识蒸馏方法不同,DRAMA直接利用LLM生成的数据进行训练,避免了中间表示的损失。此外,DRAMA采用单阶段对比学习,简化了训练流程,提高了训练效率。

关键设计:在数据增强方面,论文采用了多种策略来生成多样化的查询和文档变体,例如释义、回译等。在模型结构方面,论文采用了剪枝后的LLM作为骨干网络,以降低参数量。在损失函数方面,论文采用了对比学习损失函数,鼓励模型学习到查询和文档之间的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DRAMA在多个任务和语言上都取得了显著的性能提升。例如,在多语言检索任务上,DRAMA优于传统的基于编码器的检索器。此外,DRAMA在长文本检索任务上也表现出色,证明了其具有良好的上下文理解能力。这些结果表明,DRAMA是一种有效的训练小型检索器的方法。

🎯 应用场景

DRAMA框架可应用于各种信息检索场景,例如搜索引擎、问答系统、推荐系统等。其高效性和泛化能力使其能够处理大规模语料库和多语言环境。该研究有助于推动小型检索器在实际应用中的部署,并为未来的检索模型研究提供新的思路。

📄 摘要(原文)

Large language models (LLMs) have demonstrated strong effectiveness and robustness while fine-tuned as dense retrievers. However, their large parameter size brings significant inference time computational challenges, including high encoding costs for large-scale corpora and increased query latency, limiting their practical deployment. While smaller retrievers offer better efficiency, they often fail to generalize effectively with limited supervised fine-tuning data. In this work, we introduce DRAMA, a training framework that leverages LLMs to train smaller generalizable dense retrievers. In particular, we adopt pruned LLMs as the backbone and train on diverse LLM-augmented data in a single-stage contrastive learning setup. Experiments show that DRAMA offers better multilingual and long-context capabilities than traditional encoder-based retrievers, and achieves strong performance across multiple tasks and languages. These highlight the potential of connecting the training of smaller retrievers with the growing advancements in LLMs, bridging the gap between efficiency and generalization.