How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

📄 arXiv: 2504.10766v1 📥 PDF

作者: Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-04-14


💡 一句话要点

通过层级梯度谱分析,揭示指令和推理数据质量对LLM后训练的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 后训练 数据质量 梯度分析 奇异值分解 谱分析 有效秩 指令学习

📋 核心要点

  1. 现有研究对不同数据如何影响LLM后训练微调动态的理解不足,尤其是在从指令遵循到复杂推理任务的过渡中。
  2. 论文提出通过分析数据诱导的层级梯度谱,来评估数据质量,并用梯度奇异值分解的谱属性统一解释现有数据评估指标。
  3. 实验结果表明,高质量数据与较低核范数和较高有效秩相关,且有效秩能更鲁棒地捕捉细微质量差异,为数据探索提供新思路。

📝 摘要(中文)

本文旨在探索不同质量的指令和推理数据对大型语言模型(LLM)后训练微调动态的影响。通过对低/高质量数据诱导的层级梯度进行谱分析,发现数据评估的常用指标,如IFD、InsTag、Difficulty和Reward,可以通过梯度奇异值分解(SVD)计算的谱属性来解释和统一。高质量数据通常与较低的核范数和较高的有效秩相关。有效秩在捕捉细微的质量差异方面表现出更好的鲁棒性和分辨率。例如,推理数据比指令数据具有更高的有效秩,表明在更复杂的任务上具有更丰富的梯度结构。实验表明,同一模型家族内的模型具有相似的梯度模式,而不同模型家族则存在显著差异。这项工作统一了指令和推理数据质量的影响,阐明了数据质量和训练稳定性之间的相互作用,为开发更好的后训练数据探索策略提供了新的见解。

🔬 方法详解

问题定义:现有方法缺乏对不同质量的指令和推理数据如何影响大型语言模型(LLM)后训练微调动态的深入理解。尤其是在LLM从简单的指令遵循任务转向复杂的推理任务时,数据质量对模型训练过程的影响机制尚不明确。现有的数据评估指标缺乏统一的理论解释,难以指导数据选择和优化。

核心思路:论文的核心思路是通过分析不同质量数据在LLM后训练过程中产生的层级梯度,利用梯度奇异值分解(SVD)的谱属性来量化和评估数据质量。认为高质量的数据会产生具有特定谱特征的梯度,这些特征可以反映数据对模型训练的贡献程度和方式。通过建立数据质量与梯度谱特征之间的联系,可以更好地理解数据对模型训练的影响,并为数据选择和优化提供理论依据。

技术框架:论文的技术框架主要包括以下几个步骤:1) 使用不同质量的指令和推理数据对LLM进行后训练微调;2) 计算每个数据样本在每一层产生的梯度;3) 对每一层的梯度进行奇异值分解(SVD),得到梯度谱;4) 分析梯度谱的特征,如核范数和有效秩,并将其与数据质量指标(如IFD、InsTag、Difficulty和Reward)进行关联;5) 通过实验验证梯度谱特征与数据质量之间的关系,并分析不同模型家族之间的梯度模式差异。

关键创新:论文的关键创新在于:1) 提出了一种基于层级梯度谱分析的数据质量评估方法,可以统一解释现有的数据评估指标;2) 发现有效秩比核范数更鲁棒地捕捉细微的质量差异;3) 揭示了指令和推理数据在梯度结构上的差异,为理解复杂任务的训练机制提供了新的视角;4) 发现同一模型家族内的模型具有相似的梯度模式,而不同模型家族则存在显著差异。

关键设计:论文的关键设计包括:1) 使用奇异值分解(SVD)来提取梯度谱的特征,如核范数和有效秩;2) 使用有效秩作为数据质量的评估指标,因为它对噪声更鲁棒,并且能够捕捉细微的质量差异;3) 通过实验对比不同质量的指令和推理数据,以及不同模型家族之间的梯度模式差异;4) 使用广泛研究的数据评估指标(如IFD、InsTag、Difficulty和Reward)来验证梯度谱特征与数据质量之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,高质量数据通常与较低的核范数和较高的有效秩相关。推理数据比指令数据具有更高的有效秩,表明在更复杂的任务上具有更丰富的梯度结构。同一模型家族内的模型具有相似的梯度模式,而不同模型家族则存在显著差异。有效秩在捕捉细微的质量差异方面表现出更好的鲁棒性和分辨率。

🎯 应用场景

该研究成果可应用于大型语言模型的后训练数据选择和优化,帮助开发者选择更高质量的数据,提升模型性能和训练效率。此外,该方法还可以用于评估和比较不同数据集的质量,为数据集构建和管理提供指导。该研究对于提升LLM在各种下游任务中的表现具有重要意义。

📄 摘要(原文)

As the post-training of large language models (LLMs) advances from instruction-following to complex reasoning tasks, understanding how different data affect finetuning dynamics remains largely unexplored. In this paper, we present a spectral analysis of layer-wise gradients induced by low/high-quality instruction and reasoning data for LLM post-training. Our analysis reveals that widely-studied metrics for data evaluation, e.g., IFD, InsTag, Difficulty, and Reward, can be explained and unified by spectral properties computed from gradients' singular value decomposition (SVD). Specifically, higher-quality data are usually associated with lower nuclear norms and higher effective ranks. Notably, effective rank exhibits better robustness and resolution than nuclear norm in capturing subtle quality differences. For example, reasoning data achieves substantially higher effective ranks than instruction data, implying richer gradient structures on more complex tasks. Our experiments also highlight that models within the same family share similar gradient patterns regardless of their sizes, whereas different model families diverge significantly. Providing a unified view on the effects of data quality across instruction and reasoning data, this work illuminates the interplay between data quality and training stability, shedding novel insights into developing better data exploration strategies for post-training.