An Empirical Study of SFT-DPO Interaction and Parameterization in Small Language Models

作者: Yuming Feng, Christy Yang

分类: cs.CL, cs.AI

发布日期: 2026-03-20

💡 一句话要点

小规模语言模型中SFT-DPO交互与参数化影响研究

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 小规模语言模型 监督微调 直接偏好优化 全参数微调 低秩适应 参数化方法 GPT-2

📋 核心要点

现有方法在小规模语言模型上，SFT和DPO的交互方式以及参数化策略的影响尚不明确。
论文通过系统比较SFT、DPO以及SFT到DPO的阶段性训练，研究了不同训练策略和参数化方法对模型性能的影响。
实验结果表明，全参数微调(FFT)优于LoRA，且DPO在特定任务上能带来小幅提升，但参数化是主要性能影响因素。

📝 摘要（中文）

直接偏好优化(DPO)在监督微调(SFT)后被广泛用于对齐语言模型，但小型骨干网络和适量数据下的经验行为尚未充分明确。本文系统地比较了仅SFT、仅DPO以及SFT到DPO的阶段性训练，以及GPT-2规模解码器上的全参数微调(FFT)与LoRA。评估任务包括释义检测和莎士比亚十四行诗续写。结果表明，DPO在强大的SFT基础上产生了较小的、任务相关的增益，并且当偏好构建与监督目标紧密平行时，无需热启动即可达到具有竞争力的SFT精度。相反，参数化起主导作用：在匹配的训练深度下，FFT始终优于LoRA，并且在我们的硬件上，LoRA并没有减少实际运行时间。这些发现表明，在这个小规模范围内，监督全参数调整仍然是主要的性能杠杆，而偏好优化和低秩适应提供的边际回报有限。

🔬 方法详解

问题定义：论文旨在研究在小规模语言模型（GPT-2规模）上，监督微调（SFT）和直接偏好优化（DPO）之间的相互作用，以及不同参数化方法（全参数微调FFT和LoRA）对模型性能的影响。现有方法缺乏对这些因素在小规模模型上的系统性分析，难以指导实际应用中的模型训练策略选择。

核心思路：论文的核心思路是通过控制变量法，分别评估SFT、DPO以及SFT到DPO的组合训练策略，以及FFT和LoRA两种参数化方法对模型性能的影响。通过对比不同策略和参数化方法在释义检测和莎士比亚十四行诗续写任务上的表现，分析其优缺点，从而为小规模语言模型的训练提供指导。

技术框架：论文采用GPT-2规模的解码器作为基础模型，并在此基础上进行不同训练策略和参数化方法的实验。具体流程包括：1) 使用SFT进行监督微调；2) 使用DPO进行偏好优化；3) 组合SFT和DPO进行阶段性训练；4) 使用FFT和LoRA进行参数化调整。在释义检测和十四行诗续写任务上评估模型性能。

关键创新：论文的关键创新在于系统性地研究了SFT和DPO在小规模语言模型上的交互作用，并对比了FFT和LoRA两种参数化方法。以往研究更多关注大规模模型，而忽略了小规模模型上的特性。论文的发现表明，在小规模模型上，全参数微调仍然是主要的性能杠杆，而偏好优化和低秩适应提供的边际回报有限。

关键设计：论文的关键设计包括：1) 采用GPT-2规模的解码器，保证实验的可重复性；2) 选择释义检测和十四行诗续写任务，覆盖了不同的语言理解和生成能力；3) 使用全参数微调（FFT）和LoRA进行参数化调整，对比不同参数化方法的性能；4) 详细记录训练时间和性能指标，进行定量分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在GPT-2规模的模型上，全参数微调(FFT)始终优于LoRA，表明在小规模模型中，全参数调整仍然是主要的性能提升手段。DPO在SFT基础上能带来小幅提升，但提升幅度有限。当偏好构建与监督目标紧密平行时，DPO无需热启动即可达到具有竞争力的SFT精度。

🎯 应用场景

该研究成果可应用于资源受限场景下的小规模语言模型训练，例如在边缘设备上部署的智能助手、特定领域的文本生成等。通过选择合适的训练策略和参数化方法，可以在有限的计算资源下获得较好的模型性能，提升实际应用价值。未来的研究可以进一步探索更高效的参数化方法和优化算法。

📄 摘要（原文）

Direct Preference Optimization (DPO) is widely used after supervised fine-tuning (SFT) to align language models, yet empirical behavior under small backbones and modest data is under-specified. We systematically compare SFT-only, DPO-only, and staged SFT-to-DPO training alongside full fine-tuning (FFT) versus LoRA on a GPT-2-scale decoder, evaluating paraphrase detection and Shakespearean sonnet continuation. DPO yields small, task-dependent gains over strong SFT and can match competitive SFT accuracy without a warm start when the preference construction closely parallels the supervised objective. In contrast, parameterization dominates: FFT consistently outperforms LoRA at matched training depth, and LoRA does not reduce wall-clock time on our hardware. These findings indicate that, in this small-scale regime, supervised full-parameter adaptation remains the primary performance lever, while preference optimization and low-rank adaptation provide limited marginal returns.

An Empirical Study of SFT-DPO Interaction and Parameterization in Small Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理