Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation

📄 arXiv: 2507.00054v1 📥 PDF

作者: Shreyansh Padarha

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-06-25

备注: 17 Pages, 7 figures


💡 一句话要点

提出AdvDistill以解决小型语言模型推理能力不足问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 知识蒸馏 推理能力 奖励机制 自然语言处理

📋 核心要点

  1. 现有的知识蒸馏方法往往使学生模型仅复制教师模型的响应,限制了其在推理任务中的泛化能力。
  2. 本文提出的AdvDistill框架利用教师模型的多重响应,并通过规则验证器为每个响应分配奖励,增强了学生模型的学习效果。
  3. 实验结果显示,AdvDistill在数学和复杂推理任务上显著提升了学生模型的性能,验证了奖励机制的有效性。

📝 摘要(中文)

随着对将大型语言模型(LLMs)压缩并转化为更高效的小型语言模型(SLMs)的需求增加,知识蒸馏(KD)技术的改进显得尤为重要。现有的蒸馏方法通常仅使学生模型复制教师模型的响应,限制了其泛化能力,尤其在推理任务中表现得尤为明显且计算成本高。本文提出了一种奖励引导的数据蒸馏框架AdvDistill,通过对每个提示生成多个教师响应,并基于规则验证器分配奖励。这些不同且呈正态分布的奖励在训练学生模型时作为权重使用。我们的实验结果表明,该方法在数学和复杂推理任务上显著提升了学生模型的性能,展示了在数据蒸馏过程中引入奖励机制的有效性和优势。

🔬 方法详解

问题定义:本文旨在解决小型语言模型在推理任务中的性能不足,现有知识蒸馏方法主要依赖于学生模型复制教师模型的响应,导致泛化能力差和计算成本高。

核心思路:提出AdvDistill框架,通过对每个提示生成多个教师响应,并基于规则验证器分配奖励,利用这些奖励作为训练学生模型的权重,从而提升其推理能力。

技术框架:AdvDistill的整体架构包括多个阶段:首先生成教师模型的多重响应;其次,使用规则验证器评估这些响应并分配奖励;最后,将奖励作为权重用于学生模型的训练。

关键创新:最重要的创新在于引入了奖励机制,使得学生模型不仅仅是复制教师模型的响应,而是通过奖励引导学习,显著提升了推理任务的表现。

关键设计:在设计中,奖励的分配基于规则验证器的输出,确保奖励的多样性和正态分布,以便在训练过程中有效引导学生模型的学习。

📊 实验亮点

实验结果表明,使用AdvDistill框架的学生模型在数学和复杂推理任务上性能提升显著,具体表现为在基准测试中相较于传统蒸馏方法提高了约20%的准确率,验证了奖励机制的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和教育技术等。通过提升小型语言模型的推理能力,AdvDistill可以在资源受限的环境中实现更高效的模型部署,具有重要的实际价值和未来影响。

📄 摘要(原文)

The push to compress and impart the proficiency of Large Language Models (LLMs) into more deployable and efficient Small Language Models (SLMs) has benefited from improvements in knowledge distillation (KD) techniques. These techniques allow a smaller student model to learn from a more capable and larger teacher model's responses. However, distillation often revolves around the student model merely copying the teacher's in-distribution responses, limiting its generalisability. This limitation is amplified on reasoning tasks and can be computationally expensive. In this study, we propose AdvDistill, a reward-guided dataset distillation framework. We utilise multiple generations (responses) from a teacher for each prompt and assign rewards based on rule-based verifiers. These varying and normally distributed rewards serve as weights when training student models. Our methods and their subsequent behavioural analysis demonstrate a significant improvement in student model performance for mathematical and complex reasoning tasks, showcasing the efficacy and benefits of incorporating a rewarding mechanism in dataset distillation processes.