Augmented Relevance Datasets with Fine-Tuned Small LLMs

📄 arXiv: 2504.09816v1 📥 PDF

作者: Quentin Fitte-Rey, Matyas Amrouche, Romain Deveaud

分类: cs.IR, cs.CL

发布日期: 2025-04-14

备注: 10 pages, 3 figures, and 6 tables. Accepted and presented to LLM4EVAL at WSDM '25

期刊: LLM4EVAL at WSDM '25, March 2025, Hannover, Germany


💡 一句话要点

利用微调的小型LLM增强相关性数据集,提升排序模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 相关性评估 数据集增强 小型LLM 微调 排序模型

📋 核心要点

  1. 高质量相关性数据集构建耗时耗力,依赖人工标注,成本高昂且效率低下。
  2. 论文提出微调小型LLM来自动评估查询-文档相关性,从而增强训练数据集,提升排序模型性能。
  3. 实验表明,微调的小型LLM优于某些闭源模型,并显著提高了排序模型的性能。

📝 摘要(中文)

构建高质量数据集并标注查询-文档相关性是至关重要但资源密集型任务,需要详细的指南和人工标注员的大量努力。本文探讨了使用小型、微调的大型语言模型(LLM)来自动化相关性评估,重点是通过增强训练数据集来提高排序模型的性能。我们对小型LLM进行了微调,以增强相关性评估,从而提高下游排序模型训练的数据集创建质量。实验表明,这些微调的小型LLM不仅在我们数据集上优于某些闭源模型,而且还显著提高了排序模型的性能。这些结果突出了利用小型LLM进行高效且可扩展的数据集增强的潜力,为搜索引擎优化提供了一种实用的解决方案。

🔬 方法详解

问题定义:论文旨在解决构建高质量查询-文档相关性数据集的难题。现有方法依赖于人工标注,成本高昂、耗时,且难以规模化。此外,标注质量受标注人员主观因素影响,可能存在偏差。

核心思路:论文的核心思路是利用小型LLM,通过微调使其具备准确评估查询-文档相关性的能力,从而自动化数据集构建过程。这种方法旨在降低成本、提高效率,并减少人工标注带来的偏差。通过增强训练数据集,最终提升排序模型的性能。

技术框架:整体框架包括以下几个阶段:1) 收集查询-文档对;2) 使用人工标注数据对小型LLM进行微调,使其学习相关性评估;3) 使用微调后的LLM对大量未标注的查询-文档对进行相关性预测;4) 将预测结果作为增强数据加入到排序模型的训练集中;5) 评估排序模型在增强数据集上的性能。

关键创新:关键创新在于利用微调后的小型LLM来自动化相关性评估,并将其应用于数据集增强。与直接使用大型LLM或完全依赖人工标注相比,该方法在成本、效率和可扩展性方面具有优势。此外,通过微调,小型LLM可以更好地适应特定领域的数据集,从而提高评估准确性。

关键设计:论文的关键设计包括:选择合适的预训练小型LLM架构(具体架构未知);设计有效的微调策略,包括选择合适的损失函数(例如,交叉熵损失)和优化器(例如,AdamW);探索不同的数据增强方法,例如,生成对抗网络(GAN)或回译技术(具体使用方法未知);以及评估不同增强策略对排序模型性能的影响。具体的参数设置和网络结构等技术细节在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过微调的小型LLM在相关性评估任务上优于某些闭源模型。更重要的是,使用这些LLM增强后的数据集能够显著提高排序模型的性能。具体的性能提升幅度在论文中有所描述,但此处未知。这些结果验证了利用小型LLM进行数据集增强的有效性。

🎯 应用场景

该研究成果可广泛应用于搜索引擎优化、推荐系统、问答系统等领域。通过自动化构建高质量相关性数据集,可以显著降低开发成本,提高系统性能,并加速产品迭代。此外,该方法还可以应用于其他需要标注数据的机器学习任务,例如,文本分类、情感分析等。

📄 摘要(原文)

Building high-quality datasets and labeling query-document relevance are essential yet resource-intensive tasks, requiring detailed guidelines and substantial effort from human annotators. This paper explores the use of small, fine-tuned large language models (LLMs) to automate relevance assessment, with a focus on improving ranking models' performance by augmenting their training dataset. We fine-tuned small LLMs to enhance relevance assessments, thereby improving dataset creation quality for downstream ranking model training. Our experiments demonstrate that these fine-tuned small LLMs not only outperform certain closed source models on our dataset but also lead to substantial improvements in ranking model performance. These results highlight the potential of leveraging small LLMs for efficient and scalable dataset augmentation, providing a practical solution for search engine optimization.