Learning to Adapt SFT Data for Better Reasoning Generalization
作者: Lisong Sun, Li Wang, Chen Zhang, Jinyang Wu, Kui Zhang, Tianhao Peng, Wenjun Wu
分类: cs.CL
发布日期: 2026-05-26
💡 一句话要点
提出DART:通过数据自适应提升LLM推理泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 监督微调 数据自适应 强化学习 推理泛化
📋 核心要点
- 现有SFT方法在数据分布不匹配时,直接微调专家数据会损害LLM的推理泛化能力。
- DART通过强化学习训练映射模型,将原始SFT数据转换为模型自适应的监督信号。
- 实验表明,DART提升了LLM的推理泛化能力,训练效率高于直接强化学习,性能超越标准SFT。
📝 摘要(中文)
大型语言模型(LLMs)取得了显著进展,其中后训练在增强其推理能力方面发挥着关键作用。在后训练范式中,监督式微调(SFT)被广泛使用:它利用外部数据提供密集监督,并实现高效训练。然而,当数据分布与目标模型自身的分布不匹配时,直接在专家数据上进行微调可能会损害泛化能力。在这项工作中,我们提出了用于推理调整的数据自适应(DART),它将使用固定的、可能分布错位的SFT数据集,形式化为演示转换的优化问题。DART使用强化学习训练一个映射模型,将原始SFT数据转换为更符合目标模型分布和学习偏好的模型自适应监督。然后,转换后的数据用于SFT,使目标模型能够更好地利用外部监督。跨多个模型和数据集的实验表明,DART提高了泛化能力,实现了比直接RL更高的训练效率,并帮助模型超越了标准SFT。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在监督微调(SFT)过程中,由于训练数据(专家数据)与模型自身分布不匹配而导致的推理泛化能力下降问题。现有方法直接使用专家数据进行微调,忽略了数据分布差异可能带来的负面影响,导致模型在目标任务上的表现不佳。
核心思路:论文的核心思路是通过学习一个数据转换(映射)函数,将原始的、可能存在分布偏差的SFT数据转换为更适合目标模型的“模型自适应”数据。这种转换后的数据能够更好地匹配目标模型的分布和学习偏好,从而提高微调后的模型在推理任务上的泛化能力。
技术框架:DART的整体框架包含以下几个主要模块:1) 原始SFT数据集;2) 映射模型(Mapper Model):使用强化学习进行训练,负责将原始SFT数据转换为模型自适应数据;3) 目标模型:需要进行微调以提升推理能力的LLM;4) 强化学习环境:用于训练映射模型,奖励信号基于目标模型在验证集上的性能。流程上,首先使用强化学习训练映射模型,然后使用映射模型转换SFT数据,最后使用转换后的数据对目标模型进行SFT微调。
关键创新:DART的关键创新在于将SFT数据的利用形式化为一个优化问题,通过学习数据转换来弥合SFT数据与目标模型之间的分布差异。与直接使用原始SFT数据或直接使用强化学习微调模型相比,DART能够更有效地利用外部监督信息,并避免了直接强化学习训练不稳定和效率低下的问题。
关键设计:映射模型的设计是关键。论文使用强化学习来训练映射模型,奖励函数的设计至关重要,它直接影响映射模型的学习效果。奖励函数通常基于目标模型在验证集上的性能表现,例如推理准确率。此外,强化学习算法的选择(例如,策略梯度算法)以及超参数的设置也会影响最终的性能。具体的网络结构和损失函数细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DART在多个模型和数据集上都取得了显著的性能提升。相较于直接使用原始SFT数据进行微调,DART能够提高模型的推理准确率和泛化能力。此外,DART的训练效率高于直接使用强化学习进行微调,能够在更短的时间内获得更好的性能。具体的性能提升幅度和对比基线需要在论文中查找(未知)。
🎯 应用场景
DART方法可广泛应用于提升各种大型语言模型的推理能力,尤其是在缺乏高质量、与目标模型分布匹配的SFT数据时。该方法可以应用于问答系统、代码生成、数学推理等多种任务,提高模型在实际应用场景中的泛化能力和可靠性。未来,DART可以扩展到其他后训练范式,例如奖励模型训练等。
📄 摘要(原文)
Large language models (LLMs) have achieved remarkable progress, with post-training playing a crucial role in enhancing their reasoning capabilities. Among post-training paradigms, supervised fine-tuning (SFT) is widely used: it leverages external data to provide dense supervision and enables efficient training. However, directly fine-tuning on expert data can hurt generalization when the data distribution is mismatched with the target model's own distribution. In this work, we propose Data Adaptation for Reasoning Tuning (DART), which formulates the use of a fixed, potentially distributionally misaligned SFT dataset as an optimization problem over demonstration transformations. DART trains a mapper model with reinforcement learning to convert original SFT data into model-adapted supervision that better matches the target model's distribution and learning preferences. The transformed data are then used for SFT, allowing the target model to better exploit external supervision. Experiments across multiple models and datasets show that DART improves generalization, achieves higher training efficiency than direct RL, and helps models surpass standard SFT. Our code is available at https://anonymous.4open.science/r/DART525E50D.