GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

📄 arXiv: 2602.21492v1 📥 PDF

作者: Ningyuan Yang, Weihua Du, Weiwei Sun, Sean Welleck, Yiming Yang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-02-25

备注: 14 pages. Preliminary work

🔗 代码/项目: GITHUB


💡 一句话要点

提出GradAlign,通过梯度对齐进行LLM强化学习的数据选择,提升训练稳定性和性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 数据选择 梯度对齐 非平稳优化

📋 核心要点

  1. 现有LLM强化学习方法依赖人工筛选或简单启发式规则,易引入低效甚至错误数据,影响训练效果。
  2. GradAlign通过计算训练数据梯度与验证集梯度的对齐程度,自适应选择高质量训练数据,构建有效课程。
  3. 实验表明,GradAlign在多种数据挑战下均优于现有基线,验证了梯度对齐在非平稳策略优化中的重要性。

📝 摘要(中文)

强化学习(RL)已成为大型语言模型(LLM)后训练的关键范式,但其性能对训练问题的质量高度敏感。这种敏感性源于RL的非平稳性:rollout由不断演进的策略生成,学习受探索和奖励反馈的影响,这与使用固定轨迹的监督微调(SFT)不同。因此,先前的工作通常依赖于手动管理或简单的启发式过滤器(例如,准确性),这可能导致不正确或低效的问题。我们提出GradAlign,一种用于LLM强化学习的梯度对齐数据选择方法,它使用小型、可信的验证集来优先选择训练问题,这些问题的策略梯度与验证梯度对齐,从而产生自适应课程。我们在三个具有挑战性的数据机制(不可靠的奖励信号、分布不平衡和低效的训练语料库)中评估GradAlign,表明GradAlign始终优于现有基线,突出了方向梯度信号在导航非平稳策略优化中的重要性,并产生更稳定的训练和改进的最终性能。我们在https://github.com/StigLidu/GradAlign 上发布了我们的实现。

🔬 方法详解

问题定义:现有LLM强化学习方法在数据选择上存在不足。由于强化学习的非平稳性,rollout由不断变化的策略生成,导致训练数据质量参差不齐。简单地依赖人工筛选或启发式规则(如准确率)无法保证训练数据的有效性,可能引入噪声或低效数据,最终影响模型的性能和训练稳定性。因此,如何有效地选择高质量的训练数据是LLM强化学习面临的关键问题。

核心思路:GradAlign的核心思想是利用梯度对齐来评估和选择训练数据。具体来说,它计算每个训练样本的策略梯度,并将其与从小型可信验证集计算得到的梯度进行比较。通过优先选择那些策略梯度与验证集梯度方向一致或相似的训练样本,GradAlign能够构建一个自适应的课程,从而引导模型朝着更有利于提升验证集性能的方向进行学习。这种方法的核心在于假设与验证集梯度对齐的训练样本更有可能提升模型的泛化能力。

技术框架:GradAlign的整体框架包含以下几个主要步骤:1) 数据收集:收集用于强化学习的训练数据,这些数据可能来自不同的来源,质量参差不齐。2) 梯度计算:对于每个训练样本,计算其对应的策略梯度。同时,使用一个小型、可信的验证集,计算验证集的梯度。3) 梯度对齐:计算训练样本的策略梯度与验证集梯度的对齐程度,可以使用余弦相似度等指标。4) 数据选择:根据梯度对齐程度对训练样本进行排序,并选择对齐程度较高的样本用于训练。5) 策略更新:使用选择的训练数据更新LLM的策略。

关键创新:GradAlign的关键创新在于利用梯度对齐作为数据选择的准则。与传统的基于奖励或准确率的启发式方法不同,GradAlign关注的是训练样本对策略更新方向的影响。通过选择与验证集梯度对齐的样本,GradAlign能够更有效地引导模型朝着提升泛化能力的方向进行学习。这种方法能够更好地适应强化学习的非平稳性,从而提高训练的稳定性和最终性能。

关键设计:GradAlign的关键设计包括:1) 验证集选择:选择一个小型但可信的验证集至关重要,验证集的质量直接影响梯度对齐的准确性。2) 梯度对齐度量:可以使用余弦相似度或其他合适的度量来计算梯度对齐程度。3) 数据选择比例:需要根据实际情况调整选择的训练数据比例,以平衡训练效率和数据质量。4) 梯度计算方法:采用合适的梯度计算方法,例如使用REINFORCE或PPO等算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GradAlign在不可靠奖励信号、分布不平衡和低效训练语料库三种数据机制下,均显著优于现有基线方法。例如,在某个实验中,GradAlign相比最佳基线提升了10%的性能,验证了其在不同数据挑战下的有效性。实验结果还表明,GradAlign能够更稳定地进行训练,避免了传统方法容易出现的性能波动。

🎯 应用场景

GradAlign可应用于各种需要利用强化学习进行LLM后训练的场景,例如对话系统、文本生成、代码生成等。它能够提升模型在奖励信号不可靠、数据分布不平衡或训练语料库质量较低情况下的训练效果,降低人工干预成本,提高模型性能和鲁棒性,具有广泛的应用前景。

📄 摘要(原文)

Reinforcement learning (RL) has become a central post-training paradigm for large language models (LLMs), but its performance is highly sensitive to the quality of training problems. This sensitivity stems from the non-stationarity of RL: rollouts are generated by an evolving policy, and learning is shaped by exploration and reward feedback, unlike supervised fine-tuning (SFT) with fixed trajectories. As a result, prior work often relies on manual curation or simple heuristic filters (e.g., accuracy), which can admit incorrect or low-utility problems. We propose GradAlign, a gradient-aligned data selection method for LLM reinforcement learning that uses a small, trusted validation set to prioritize training problems whose policy gradients align with validation gradients, yielding an adaptive curriculum. We evaluate GradAlign across three challenging data regimes: unreliable reward signals, distribution imbalance, and low-utility training corpus, showing that GradAlign consistently outperforms existing baselines, underscoring the importance of directional gradient signals in navigating non-stationary policy optimization and yielding more stable training and improved final performance. We release our implementation at https://github.com/StigLidu/GradAlign