Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking

📄 arXiv: 2504.03947v3 📥 PDF

作者: Chris Samarinas, Hamed Zamani

分类: cs.IR, cs.CL

发布日期: 2025-04-04 (更新: 2025-06-29)

DOI: 10.1145/3731120.3744613


💡 一句话要点

提出结合知识蒸馏与强化学习的小模型训练方法,用于推理型文档重排序。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文档排序 知识蒸馏 强化学习 语言模型 信息检索

📋 核心要点

  1. 现有文档排序方法依赖昂贵的人工标注或大型黑盒模型,成本高且可解释性差。
  2. 利用网络数据和教师LLM,结合知识蒸馏与强化学习,自动生成高质量训练样本并激励显式推理。
  3. 训练了一个30亿参数的小型语言模型,在BRIGHT基准上取得SOTA,参数量远小于其他模型。

📝 摘要(中文)

本文提出了一种新颖的方法,用于训练小型语言模型以进行推理密集型文档排序,该方法结合了知识蒸馏与强化学习优化。现有方法通常依赖于昂贵的人工标注或大型黑盒语言模型,而我们的方法利用网络数据和教师LLM自动生成具有相关性解释的高质量训练样本。通过将文档排序构建为强化学习问题并激励显式推理能力,我们训练了一个紧凑的30亿参数语言模型,该模型在BRIGHT基准测试中实现了最先进的性能。我们的模型在排行榜上排名第三,同时使用的参数明显少于其他方法,优于大20倍以上的模型。通过大量实验,我们证明了在推理过程中生成解释,而不是直接预测相关性分数,可以使较小的语言模型进行更有效的推理。我们方法的自监督性质为现代信息检索系统提供了一种可扩展且可解释的解决方案。

🔬 方法详解

问题定义:论文旨在解决推理密集型文档排序任务中,小型语言模型性能不足的问题。现有方法要么依赖于昂贵的人工标注数据,要么依赖于大型黑盒语言模型进行训练,导致成本高昂且缺乏可解释性。此外,现有方法通常直接预测相关性得分,而忽略了显式推理过程,限制了小型语言模型的性能。

核心思路:论文的核心思路是利用知识蒸馏和强化学习,从大型语言模型(教师模型)中提取知识,并将其迁移到小型语言模型(学生模型)中。同时,通过强化学习的方式,激励学生模型生成显式的推理过程,从而提高其排序性能和可解释性。这种方法旨在克服人工标注的成本和黑盒模型的不可解释性,并提升小型语言模型的推理能力。

技术框架:整体框架包含以下几个主要阶段:1) 使用网络数据和教师LLM自动生成带有相关性解释的训练样本;2) 将文档排序任务建模为强化学习问题,奖励学生模型生成合理的解释;3) 使用知识蒸馏技术,将教师模型的知识迁移到学生模型;4) 通过强化学习优化学生模型,使其具备显式推理能力。

关键创新:论文的关键创新在于:1) 提出了一种自监督的训练方法,无需人工标注即可生成高质量的训练数据;2) 将文档排序任务建模为强化学习问题,并设计了相应的奖励函数,激励模型生成显式的推理过程;3) 结合知识蒸馏和强化学习,有效地训练了小型语言模型,使其在推理密集型任务中取得了优异的性能。

关键设计:论文的关键设计包括:1) 使用教师模型生成相关性解释,作为学生模型的训练目标;2) 设计了基于推理过程的奖励函数,例如奖励模型生成与文档内容相关的解释;3) 使用策略梯度算法优化学生模型,使其能够生成更合理的解释和更准确的排序结果。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法训练的30亿参数小型语言模型在BRIGHT基准测试中取得了最先进的性能,排名第三,并且参数量远小于其他模型(小于大20倍以上的模型)。这表明该方法能够有效地利用知识蒸馏和强化学习,提升小型语言模型的推理能力。具体性能提升幅度未知,论文中未给出详细的数值对比。

🎯 应用场景

该研究成果可应用于各种信息检索系统,例如搜索引擎、问答系统和推荐系统。通过使用小型语言模型进行文档排序,可以降低计算成本和延迟,提高系统的可扩展性和响应速度。此外,显式推理过程的引入可以提高系统的可解释性,使用户更容易理解排序结果的原因。未来,该方法可以进一步扩展到其他自然语言处理任务中,例如文本摘要和机器翻译。

📄 摘要(原文)

We present a novel approach for training small language models for reasoning-intensive document ranking that combines knowledge distillation with reinforcement learning optimization. While existing methods often rely on expensive human annotations or large black-box language models, our methodology leverages web data and a teacher LLM to automatically generate high-quality training examples with relevance explanations. By framing document ranking as a reinforcement learning problem and incentivizing explicit reasoning capabilities, we train a compact 3B parameter language model that achieves state-of-the-art performance on the BRIGHT benchmark. Our model ranks third on the leaderboard while using substantially fewer parameters than other approaches, outperforming models that are over 20 times larger. Through extensive experiments, we demonstrate that generating explanations during inference, rather than directly predicting relevance scores, enables more effective reasoning with smaller language models. The self-supervised nature of our method offers a scalable and interpretable solution for modern information retrieval systems.