CustomIR: Unsupervised Fine-Tuning of Dense Embeddings for Known Document Corpora

📄 arXiv: 2510.21729v2 📥 PDF

作者: Nathan Paull

分类: cs.IR, cs.AI

发布日期: 2025-09-30 (更新: 2025-10-28)


💡 一句话要点

CustomIR:利用无监督微调提升领域文档稠密向量表示检索性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 稠密向量嵌入 无监督学习 领域自适应 大型语言模型

📋 核心要点

  1. 现有稠密向量模型在特定领域语料库上的检索性能下降,缺乏领域适应性。
  2. CustomIR利用LLM生成合成查询-文档对,并结合难负样本,实现无监督领域自适应。
  3. 实验表明,CustomIR显著提升了小型模型在企业数据上的检索效果,降低了RAG部署成本。

📝 摘要(中文)

稠密向量嵌入模型在现代信息检索中至关重要,尤其是在RAG(检索增强生成)流程中。然而,当应用于预训练分布之外的特定领域语料库时,它们的性能通常会下降。为了解决这个问题,我们提出了CustomIR,一个用于无监督地将预训练语言嵌入模型适应于特定领域语料库的框架,该框架使用合成生成的查询-文档对。CustomIR利用大型语言模型(LLM)来创建基于已知目标语料库的多样化查询,并与LLM验证的难负样本配对,从而消除了对昂贵的人工标注的需求。在企业电子邮件和消息传递数据集上的实验表明,CustomIR始终如一地提高了检索效果,小型模型的Recall@10最多提高了2.3个百分点。这种性能提升使这些小型模型能够与更大的替代方案的性能相媲美,从而降低了RAG部署的成本。这些结果表明,有针对性的合成微调为提高领域特定性能提供了一种可扩展且经济高效的策略。

🔬 方法详解

问题定义:论文旨在解决稠密向量嵌入模型在应用于特定领域语料库时性能下降的问题。现有方法依赖于人工标注数据进行微调,成本高昂且难以扩展。因此,如何在缺乏人工标注的情况下,提升模型在特定领域的检索性能是一个关键挑战。

核心思路:CustomIR的核心思路是利用大型语言模型(LLM)生成合成的查询-文档对,并结合LLM验证的难负样本,从而实现无监督的领域自适应。通过这种方式,可以避免人工标注的成本,并利用LLM的生成能力来创建多样化的训练数据。

技术框架:CustomIR框架主要包含以下几个阶段:1) 从目标语料库中抽取文档;2) 使用LLM基于抽取的文档生成查询;3) 使用LLM验证生成的查询与文档的相关性;4) 使用LLM生成难负样本;5) 使用合成数据对预训练的稠密向量嵌入模型进行微调。整个流程无需人工干预,可以自动化地完成。

关键创新:CustomIR最重要的技术创新点在于利用LLM生成合成数据,并将其用于无监督的领域自适应。与现有方法相比,CustomIR不需要人工标注数据,从而降低了成本并提高了可扩展性。此外,CustomIR还利用LLM生成难负样本,从而提高了模型的训练效率和性能。

关键设计:CustomIR的关键设计包括:1) 使用合适的LLM来生成高质量的查询和难负样本;2) 设计合适的提示词(prompt)来引导LLM生成相关且多样的查询;3) 选择合适的损失函数来训练稠密向量嵌入模型,例如对比损失或三元组损失;4) 调整微调的学习率和训练轮数,以获得最佳的性能。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,CustomIR在企业电子邮件和消息传递数据集上显著提高了检索效果,小型模型的Recall@10最多提高了2.3个百分点。这种性能提升使得小型模型能够与更大的替代方案的性能相媲美,从而降低了RAG部署的成本。例如,一个小型模型在应用CustomIR后,其性能可以超过一个未经微调的大型模型。

🎯 应用场景

CustomIR可广泛应用于企业搜索、法律检索、医学文献检索等领域。通过提升领域特定数据的检索性能,CustomIR可以提高RAG系统的准确性和效率,从而帮助用户更快地找到所需信息。未来,CustomIR还可以与其他技术相结合,例如知识图谱和语义搜索,以进一步提升检索效果。

📄 摘要(原文)

Dense embedding models have become critical for modern information retrieval, particularly in RAG pipelines, but their performance often degrades when applied to specialized corpora outside their pre-training distribution. To address thi we introduce CustomIR, a framework for unsupervised adaptation of pre-trained language embedding models to domain-specific corpora using synthetically generated query-document pairs. CustomIR leverages large language models (LLMs) to create diverse queries grounded in a known target corpus, paired with LLM-verified hard negatives, eliminating the need for costly human annotation. Experiments on enterprise email and messaging datasets show that CustomIR consistently improves retrieval effectiveness with small models gaining up to 2.3 points in Recall@10. This performance increase allows these small models to rival the performance of much larger alternatives, allowing for cheaper RAG deployments. These results highlight that targeted synthetic fine-tuning offers a scalable and cost-efficient strategy for increasing domain-specific performance.