DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

📄 arXiv: 2605.31455v1 📥 PDF

作者: Jian Mu, Tianyi Lin, Chengwei Qin, Zhongxiang Dai, Yao Shu

分类: cs.LG, cs.CL

发布日期: 2026-05-29

🔗 代码/项目: GITHUB


💡 一句话要点

DRIFT:解耦Rollout与重要性加权微调,提升多轮交互优化效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮交互 强化学习 监督微调 重要性加权 离线学习

📋 核心要点

  1. 现有在线强化学习方法在多轮交互优化中面临高昂的计算成本,离线监督微调则易受分布偏移影响。
  2. DRIFT框架通过解耦rollout和优化过程,利用重要性加权监督学习来近似KL正则化强化学习目标。
  3. 实验表明,DRIFT在保持训练效率的同时,性能可与多轮强化学习基线持平甚至超越。

📝 摘要(中文)

大型语言模型越来越多地部署在多轮交互环境中,用户或环境可以迭代地提供轻量级反馈。然而,优化这种行为在实践中面临着一个严峻的困境:在线强化学习能够有效地解决多轮动态问题,但由于每次更新都需要生成完整的修正轨迹,因此成本过高;而离线监督微调(SFT)效率很高,但会受到分布偏移和行为崩溃的影响。为此,我们创新性地提出了DRIFT(解耦Rollout与重要性加权微调)框架,该框架将KL正则化强化学习目标等价于重要性加权监督学习的理论见解付诸实践。DRIFT通过从固定的参考策略中采样离线交互轨迹来解耦rollout和优化,导出基于回报的重要性权重,并通过对结果数据集进行加权SFT来优化策略。实验结果表明,DRIFT在保持标准监督微调的训练效率和简单性的同时,匹配或超过了多轮强化学习基线的性能。代码可在https://github.com/2020-qqtcg/DRIFT 获取。

🔬 方法详解

问题定义:论文旨在解决多轮交互场景下,大型语言模型优化过程中在线强化学习成本高昂和离线监督微调易发生分布偏移的问题。现有在线强化学习方法需要频繁生成完整交互轨迹,计算成本巨大,而离线监督微调则无法有效应对多轮交互带来的分布变化,导致性能下降。

核心思路:DRIFT的核心思路是将KL正则化的强化学习目标等价转换为重要性加权监督学习问题。通过离线采样交互轨迹,并根据轨迹的回报计算重要性权重,然后使用加权监督微调来优化策略。这种方法避免了在线强化学习的昂贵计算,同时利用重要性权重缓解了分布偏移问题。

技术框架:DRIFT框架主要包含以下几个阶段:1) 离线Rollout:使用一个固定的参考策略生成交互轨迹数据集。2) 重要性权重计算:根据每条轨迹的回报,计算其重要性权重。权重反映了该轨迹对于优化目标的重要性。3) 加权监督微调:使用计算得到的重要性权重,对语言模型进行监督微调。目标是最大化加权数据集上的似然函数。

关键创新:DRIFT的关键创新在于将强化学习目标转化为重要性加权监督学习,从而实现了rollout和优化的解耦。这种解耦使得可以使用离线数据进行高效的策略优化,避免了在线强化学习的计算瓶颈。此外,重要性权重的使用有效地缓解了离线数据带来的分布偏移问题。

关键设计:DRIFT的关键设计包括:1) 回报函数的设计:回报函数需要能够准确反映交互轨迹的质量。2) 重要性权重的计算方法:论文采用了一种基于指数函数的权重计算方法,以确保权重值的合理范围。3) 加权损失函数:在监督微调阶段,使用加权交叉熵损失函数,其中权重由轨迹的重要性权重决定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DRIFT在多个多轮交互任务上取得了显著的性能提升。例如,在某些任务上,DRIFT的性能与在线强化学习基线相当,甚至超过了它们,同时训练效率远高于在线强化学习方法。这证明了DRIFT在多轮交互优化方面的有效性和高效性。

🎯 应用场景

DRIFT框架可广泛应用于需要多轮交互的语言模型优化场景,例如对话系统、智能助手、游戏AI等。该方法能够提升模型在复杂交互环境中的表现,并降低训练成本,具有重要的实际应用价值。未来,DRIFT可以进一步扩展到其他序列决策问题,并与其他强化学习技术相结合,以实现更强大的性能。

📄 摘要(原文)

Large language models are increasingly deployed in multi-turn interactive settings where users or environments can iteratively provide lightweight feedback. Unfortunately, optimizing such behavior presents a sharp dilemma in practice: online reinforcement learning is able to effectively address multi-turn dynamics but is prohibitively expensive due to the cost of generating full correction trajectories at every update, whereas offline supervised fine-tuning (SFT) is efficient but suffers from distribution shift and behavioral collapse. To this end, we novelly propose DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning), a framework that operationalizes the theoretical insight that the KL-regularized RL objective is equivalent to importance-weighted supervised learning. DRIFT decouples rollout from optimization by sampling offline interaction trajectories from a fixed reference policy, deriving return-based importance weights, and optimizing the policy via weighted SFT on the resulting dataset. Empirically, we demonstrate that DRIFT matches or exceeds the performance of multi-turn reinforcement learning baselines while maintaining the training efficiency and simplicity of standard supervised fine-tuning. Code is available at https://github.com/2020-qqtcg/DRIFT.