Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

📄 arXiv: 2604.11446v1 📥 PDF

作者: Zhipeng Chen, Tao Qian, Wayne Xin Zhao, Ji-Rong Wen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-13

备注: Working in progress

🔗 代码/项目: GITHUB


💡 一句话要点

提出NExt框架,通过非线性外推低秩轨迹加速LLM的RLVR训练。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 低秩优化 非线性外推 模型加速

📋 核心要点

  1. RLVR训练LLM计算开销大,现有线性外推方法对模型参数更新动态理解不足。
  2. NExt框架通过非线性建模和外推低秩参数轨迹,预测模型更新,加速RLVR训练。
  3. 实验表明,NExt能有效降低计算开销约37.5%,且兼容多种RLVR算法和任务。

📝 摘要(中文)

本文针对大规模语言模型(LLM)的基于可验证奖励的强化学习(RLVR)训练中计算开销巨大的问题,提出了一种新的框架——低秩轨迹非线性外推(NExt)。该框架旨在通过对低秩参数轨迹进行建模和外推,从而减少训练步骤。通过实验发现,模型在RLVR训练期间的秩-1子空间并非线性演变,并且在LoRA训练期间,其对原始参数的主导地位进一步增强。NExt首先使用LoRA训练模型,提取多个训练步骤中参数差异的秩-1子空间,然后利用该子空间训练一个预测器,该预测器可以对RLVR期间的参数更新轨迹进行建模,并执行预测-扩展过程以推断模型参数,从而加速RLVR。实验结果表明,该方法有效且鲁棒,在与多种RLVR算法和任务兼容的同时,将计算开销降低了约37.5%。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)训练大规模语言模型(LLM)的方法,需要大量的探索和学习,导致计算开销巨大。简单的线性外推模型参数的方法无法充分理解RLVR训练期间模型参数更新的动态过程,导致加速效果受限。

核心思路:本文的核心思路是观察到模型参数在RLVR训练过程中的低秩特性,特别是秩-1子空间的变化。通过对该低秩子空间的非线性演变轨迹进行建模和外推,可以预测模型参数的未来状态,从而减少实际训练所需的步骤。这种非线性外推能够更准确地捕捉模型参数的动态变化,提高加速效果。

技术框架:NExt框架主要包含以下几个阶段:1) LoRA训练:使用LoRA(Low-Rank Adaptation)方法对模型进行初步训练,以提取参数更新的低秩信息。2) 秩-1子空间提取:在多个训练步骤中,提取参数差异的秩-1子空间。3) 轨迹预测器训练:利用提取的秩-1子空间数据,训练一个预测器,用于建模参数更新的轨迹。4) 预测-扩展:使用训练好的预测器,预测未来的参数更新,并将其外推到模型参数中,从而加速训练过程。

关键创新:NExt的关键创新在于对低秩参数轨迹的非线性建模和外推。与以往的线性外推方法不同,NExt能够更准确地捕捉模型参数在RLVR训练过程中的动态变化。此外,利用LoRA进行低秩信息提取,降低了计算复杂度。

关键设计:NExt的关键设计包括:1) 使用LoRA进行低秩适应,降低训练成本。2) 提取秩-1子空间作为参数更新轨迹的表示。3) 设计合适的预测器(例如,神经网络)来建模非线性轨迹。4) 设计有效的预测-扩展策略,将预测的参数更新应用到模型中。具体的参数设置、损失函数和网络结构的选择取决于具体的实验设置和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NExt框架能够在保持模型性能的同时,将RLVR训练的计算开销降低约37.5%。该方法与多种RLVR算法和任务兼容,显示出良好的泛化能力和鲁棒性。这些结果验证了NExt在加速LLM训练方面的有效性。

🎯 应用场景

NExt框架可应用于各种需要通过强化学习训练大规模语言模型的场景,例如对话系统、文本生成、代码生成等。通过减少训练所需的计算资源,可以降低LLM的训练成本,加速模型迭代,并促进LLM在更广泛领域的应用。该方法尤其适用于资源受限的环境。

📄 摘要(原文)

Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, which requires guiding the model to perform extensive exploration and learning, leading to substantial computational overhead and becoming a key challenge. To reduce the number of training steps, Prior work performs linear extrapolation of model parameters. However, the dynamics of model parameter updates during RLVR training remain insufficiently understood. To further investigate the evolution of LLMs during RLVR training, we conduct empirical experiments and find that the rank-1 subspace of the model does not evolve linearly, and its dominance over the original parameters is further amplified during LoRA training. Based on the above insights, we propose the \textbf{N}onlinear \textbf{Ext}rapolation of low-rank trajectories (\textbf{NExt}), a novel framework that models and extrapolates low-rank parameter trajectories in a nonlinear manner. Concretely, we first train the model using LoRA and extract the rank-1 subspace of parameter differences at multiple training steps, which is then used for the subsequent nonlinear extrapolation. Afterward, we utilized the extracted rank-1 subspace to train a predictor, which can model the trajectory of parameter updates during RLVR, and then perform the predict-extend process to extrapolate model parameters, achieving the acceleration of RLVR. To further study and understand NExt, we conduct comprehensive experiments that demonstrate the effectiveness and robustness of the method. Our method reduces computational overhead by approximately 37.5\% while remaining compatible with a wide range of RLVR algorithms and tasks. We release our code in https://github.com/RUCAIBox/NExt.