Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

作者: Zhaolin Gao, Wenhao Zhan, Jonathan D. Chang, Gokul Swamy, Kianté Brantley, Jason D. Lee, Wen Sun

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-10-06 (更新: 2025-04-23)

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

提出REFUEL，解决LLM多轮对话中因协变量偏移导致的策略优化难题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 强化学习 人反馈强化学习 协变量偏移 策略优化

📋 核心要点

现有方法将多轮对话视为长上下文，忽略了训练数据与实际交互中的协变量偏移问题，导致性能下降。
REFUEL通过在自生成数据上训练单个模型来估计Q值，并将多轮RLHF问题转化为一系列回归任务，从而解决协变量偏移。
实验表明，REFUEL在各种设置下均优于DPO和REBEL等先进方法，并且使用REFUEL微调的小模型也能超越更大的模型。

📝 摘要（中文）

大型语言模型(LLMs)在诸如摘要等单轮交互任务中取得了显著成功。然而，它们在需要长期规划的多轮任务（如对话）中仍然面临挑战。以往的多轮对话研究通过将所有先前的对话轮次视为长上下文，将单轮人反馈强化学习(RLHF)方法扩展到多轮设置。这种方法存在协变量偏移问题：训练集中的对话具有由某些参考策略生成的先前轮次，这意味着低训练误差不一定对应于学习器实际处于对话循环中的良好性能。为了解决这个问题，我们引入了REgressing the RELative FUture (REFUEL)，这是一种高效的策略优化方法，旨在解决LLM中的多轮RLHF问题。REFUEL采用单个模型来估计$Q$-values，并在自生成数据上进行训练，从而解决了协变量偏移问题。REFUEL将多轮RLHF问题构建为迭代收集数据集上的一系列回归任务，从而易于实现。从理论上讲，我们证明了REFUEL可以匹配训练集中涵盖的任何策略的性能。在实验上，我们使用Llama-3.1-70B-it来模拟与我们的模型对话的用户。在各种设置中，REFUEL始终优于最先进的方法，如DPO和REBEL。此外，尽管只有80亿个参数，但通过REFUEL微调的Llama-3-8B-it在长多轮对话中优于Llama-3.1-70B-it。REFUEL的实现可在https://github.com/ZhaolinGao/REFUEL/找到，由REFUEL训练的模型可在https://huggingface.co/Cornell-AGI找到。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多轮对话场景下，使用强化学习从人类反馈中进行策略优化时遇到的协变量偏移问题。现有方法通常将多轮对话历史视为一个长上下文，直接应用单轮RLHF方法。然而，由于训练数据是由参考策略生成的，而实际交互时策略会发生变化，导致训练误差与实际性能不一致，影响了模型的泛化能力。

核心思路：REFUEL的核心思路是通过回归相对未来（Regressing the Relative Future）来解决协变量偏移。具体来说，REFUEL不再依赖于参考策略生成的数据，而是使用模型自身生成的数据进行训练，从而使训练数据分布更接近实际交互分布。此外，REFUEL将多轮RLHF问题分解为一系列回归任务，简化了训练过程。

技术框架：REFUEL的整体框架包括以下几个主要步骤：1) 使用当前策略生成对话数据；2) 使用人类反馈对生成的数据进行打分；3) 使用打分数据训练Q值估计模型；4) 使用Q值估计模型更新策略。这个过程迭代进行，直到策略收敛。REFUEL的关键在于Q值估计模型的训练，它使用自生成数据，并通过回归相对未来来学习Q值。

关键创新：REFUEL最重要的创新点在于使用自生成数据进行训练，从而解决了协变量偏移问题。与现有方法相比，REFUEL不再依赖于参考策略生成的数据，而是通过迭代的方式，使训练数据分布逐渐接近实际交互分布。此外，REFUEL将多轮RLHF问题分解为一系列回归任务，简化了训练过程，提高了训练效率。

关键设计：REFUEL的关键设计包括：1) 使用单个模型来估计Q值，避免了使用多个模型带来的复杂性；2) 通过回归相对未来来学习Q值，即预测在当前状态下，采取不同动作后，未来能够获得的奖励；3) 使用迭代的方式进行训练，使训练数据分布逐渐接近实际交互分布。具体的损失函数未知，但推测是基于Q值预测误差的回归损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，REFUEL在各种设置下均优于DPO和REBEL等先进方法。更令人印象深刻的是，使用REFUEL微调的Llama-3-8B-it模型在长多轮对话中甚至超越了Llama-3.1-70B-it模型，这表明REFUEL能够有效地利用数据，提高模型的性能，即使在参数量较小的情况下也能取得优异的结果。

🎯 应用场景

REFUEL在多轮对话系统、智能客服、聊天机器人等领域具有广泛的应用前景。通过解决协变量偏移问题，REFUEL可以提高多轮对话系统的性能和鲁棒性，使其能够更好地理解用户意图，生成更自然、更流畅的对话内容。此外，REFUEL还可以应用于其他需要长期规划的任务，例如游戏AI、机器人控制等。

📄 摘要（原文）

Large Language Models (LLMs) have achieved remarkable success at tasks like summarization that involve a single turn of interaction. However, they can still struggle with multi-turn tasks like dialogue that require long-term planning. Previous works on multi-turn dialogue extend single-turn reinforcement learning from human feedback (RLHF) methods to the multi-turn setting by treating all prior dialogue turns as a long context. Such approaches suffer from covariate shift: the conversations in the training set have previous turns generated by some reference policy, which means that low training error may not necessarily correspond to good performance when the learner is actually in the conversation loop. In response, we introduce REgressing the RELative FUture (REFUEL), an efficient policy optimization approach designed to address multi-turn RLHF in LLMs. REFUEL employs a single model to estimate $Q$-values and trains on self-generated data, addressing the covariate shift issue. REFUEL frames the multi-turn RLHF problem as a sequence of regression tasks on iteratively collected datasets, enabling ease of implementation. Theoretically, we prove that REFUEL can match the performance of any policy covered by the training set. Empirically, we evaluate our algorithm by using Llama-3.1-70B-it to simulate a user in conversation with our model. REFUEL consistently outperforms state-of-the-art methods such as DPO and REBEL across various settings. Furthermore, despite having only 8 billion parameters, Llama-3-8B-it fine-tuned with REFUEL outperforms Llama-3.1-70B-it on long multi-turn dialogues. Implementation of REFUEL can be found at https://github.com/ZhaolinGao/REFUEL/, and models trained by REFUEL can be found at https://huggingface.co/Cornell-AGI.

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理