MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions
作者: Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu
分类: cs.CL
发布日期: 2024-10-03 (更新: 2025-02-14)
🔗 代码/项目: GITHUB
💡 一句话要点
提出MA-RLHF,通过宏动作提升RLHF在长序列任务中的学习效率与稳定性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 人类反馈 宏动作 长序列建模 信用分配
📋 核心要点
- 传统token级别RLHF在长序列任务中面临信用分配难题,导致学习效率低下和收敛速度缓慢。
- MA-RLHF通过引入宏动作,在高层次上进行学习,缩短动作与奖励的时间间隔,改善信用分配。
- 实验证明,MA-RLHF在多个任务上显著优于标准RLHF,训练速度更快,性能提升明显。
📝 摘要(中文)
本文提出了一种基于宏动作的强化学习人类反馈(MA-RLHF)框架,旨在解决token级别RLHF在长序列中面临的信用分配问题。该方法通过引入宏动作(token序列或高级语言结构)来提高抽象层次,缩短动作与奖励之间的时间距离,从而实现更快、更准确的信用分配。这能够产生更稳定的策略梯度估计,并提高每个episode内的学习效率,且不会增加训练或推理过程中的计算复杂度。在文本摘要、对话生成、问答和程序合成等任务上的大量实验表明,MA-RLHF显著优于标准RLHF,性能提升高达30%(文本摘要和代码生成),18%(对话)和8%(问答)。值得注意的是,该方法在训练时间和性能上,达到与vanilla RLHF相当的水平的速度快1.7~2倍,并且随着进一步训练,性能持续优于vanilla RLHF。代码和数据已公开。
🔬 方法详解
问题定义:现有token级别的RLHF方法在处理长序列任务时,由于奖励的延迟性,难以确定哪些token的生成对最终结果做出了贡献,即存在信用分配问题。这导致策略梯度估计不稳定,学习效率降低,收敛速度慢。
核心思路:论文的核心思路是将token级别的动作抽象为宏动作,例如短语或句子。通过在更高层次上进行决策,可以减少动作与奖励之间的延迟,从而更容易地进行信用分配。这样可以更准确地评估每个宏动作的价值,并更有效地更新策略。
技术框架:MA-RLHF的整体框架与标准的RLHF类似,包括一个预训练的语言模型、一个奖励模型和一个强化学习策略优化器。不同之处在于,策略优化器不是在token级别进行动作选择,而是在宏动作级别进行选择。具体流程为:首先,使用语言模型生成一段文本;然后,将文本分解为一系列宏动作;接着,奖励模型评估文本的质量,并给出奖励信号;最后,策略优化器根据奖励信号调整策略,以生成更好的宏动作序列。
关键创新:MA-RLHF的关键创新在于引入了宏动作的概念,将token级别的动作抽象为更高层次的语义单元。这种抽象使得模型能够更好地理解动作的长期影响,从而更有效地进行信用分配。与传统的RLHF相比,MA-RLHF能够更快地学习到有效的策略,并取得更好的性能。
关键设计:宏动作的定义可以有多种方式,例如可以使用预定义的短语或句子,也可以使用基于聚类或语义分析的方法自动生成宏动作。论文中具体使用的宏动作定义方式未知。损失函数方面,MA-RLHF可以使用标准的策略梯度算法,例如PPO或TRPO。关键在于将动作空间从token级别转换为宏动作级别。具体的网络结构与标准RLHF类似,主要取决于所使用的语言模型和奖励模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MA-RLHF在文本摘要和代码生成任务上取得了高达30%的性能提升,在对话任务上提升了18%,在问答任务上提升了8%。此外,MA-RLHF达到与vanilla RLHF相当的性能水平的速度快1.7~2倍,并且随着进一步训练,性能持续优于vanilla RLHF。这些结果表明,MA-RLHF是一种有效的RLHF改进方法。
🎯 应用场景
MA-RLHF具有广泛的应用前景,可以应用于各种需要生成长文本序列的任务,例如文本摘要、对话生成、机器翻译、代码生成等。该方法能够提高生成文本的质量和一致性,并减少人工干预的需求。未来,MA-RLHF可以进一步扩展到其他领域,例如机器人控制和游戏AI,以提高智能体的决策能力。
📄 摘要(原文)
Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to preferred outcomes. This hinders learning efficiency and slows convergence.In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions -- sequences of tokens or higher-level language constructs -- into the learning process. By operating at higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7 ~ 2 times faster in terms of training time and continues to outperform it with further training. We make our code and data publicly available at https://github.com/ernie-research/MA-RLHF.