Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
作者: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Suin Kim, Dongyeop Kang
分类: cs.CL
发布日期: 2025-04-28 (更新: 2025-05-16)
备注: Code and data: https://github.com/minnesotanlp/mpo
🔗 代码/项目: GITHUB
💡 一句话要点
提出MPO元策略优化框架,通过动态演化的奖励模型提升LLM对齐的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 元学习 奖励模型 策略优化 大型语言模型 对齐 提示工程 强化学习 奖励攻击
📋 核心要点
- 现有基于奖励的LLM对齐方法易受奖励攻击,且依赖人工设计的奖励提示,成本高昂且效果不稳定。
- MPO框架引入元奖励模型,动态调整奖励模型的提示,以适应训练过程中的变化,提升对齐的鲁棒性。
- 实验表明,MPO在多种任务上表现优异,无需特定任务的奖励设计,且易于扩展到更高级别的对齐框架。
📝 摘要(中文)
大型语言模型(LLM)的基于奖励的对齐方法面临两个主要限制:易受奖励攻击,模型会利用奖励信号中的缺陷;以及当LLM用作奖励模型时,依赖于脆弱且劳动密集型的提示工程。我们引入了元策略优化(MPO),该框架通过集成一个元奖励模型来解决这些挑战,该模型在整个训练过程中动态地改进奖励模型的提示。在MPO中,元奖励模型监控不断发展的训练环境,并持续调整奖励模型的提示以保持高度对齐,从而提供自适应的奖励信号,抵抗策略的利用。这种元学习方法促进了更稳定的策略优化,并大大减少了手动奖励提示设计的需求。它产生的性能与由精心设计的手工奖励提示指导的模型相当或更好。此外,我们表明,MPO在从论文写作到数学推理的各种任务中保持其有效性,而无需专门的奖励设计。除了标准RLAIF之外,MPO的元学习公式很容易扩展到更高级别的对齐框架。总的来说,该方法解决了基于奖励的LLM的RL对齐中的理论和实践挑战,为更强大和适应性更强的对齐策略铺平了道路。
🔬 方法详解
问题定义:现有基于奖励的LLM对齐方法,如强化学习人工反馈(RLAIF),存在两个主要问题。一是奖励模型容易被“奖励攻击”,即模型学会利用奖励函数的漏洞来获得高分,而不是真正地与人类意图对齐。二是奖励模型的提示工程非常耗时耗力,需要大量人工调整才能获得较好的效果,且泛化能力较差。
核心思路:MPO的核心思路是引入一个元奖励模型,该模型能够动态地调整奖励模型的提示,使其能够适应训练过程中策略的变化,从而提供更准确、更鲁棒的奖励信号。通过这种方式,MPO可以减少对人工提示工程的依赖,并提高模型对奖励攻击的抵抗能力。
技术框架:MPO包含两个主要模块:策略模型和奖励模型。奖励模型又包含一个基础奖励模型和一个元奖励模型。整体流程如下:1. 策略模型生成文本。2. 基础奖励模型根据当前提示对文本进行评分。3. 元奖励模型根据训练上下文(例如,策略模型的表现、奖励模型的表现等)动态调整基础奖励模型的提示。4. 使用调整后的提示,基础奖励模型再次对文本进行评分。5. 使用该奖励信号训练策略模型。
关键创新:MPO的关键创新在于引入了元奖励模型,实现了奖励模型的动态自适应。与传统的静态奖励模型相比,MPO的奖励模型能够根据训练过程中的变化进行自我调整,从而提供更准确、更鲁棒的奖励信号。这使得MPO能够更好地抵抗奖励攻击,并减少对人工提示工程的依赖。
关键设计:元奖励模型通常是一个小型LLM,其输入包括训练上下文信息,输出是奖励模型提示的更新。可以使用强化学习或监督学习来训练元奖励模型。损失函数的设计需要考虑奖励模型的准确性和鲁棒性,以及策略模型的表现。具体的网络结构和参数设置需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MPO在多个任务上都取得了与人工设计的奖励提示相当或更好的性能。例如,在论文写作任务中,MPO能够生成更高质量、更符合人类意图的文本。此外,MPO还表现出更强的鲁棒性,能够抵抗各种奖励攻击。重要的是,MPO在不同任务上无需专门的奖励设计,展示了其良好的泛化能力。
🎯 应用场景
MPO框架可广泛应用于各种需要对齐大型语言模型的场景,例如对话系统、文本生成、代码生成等。它能够提高LLM的安全性、可靠性和可控性,使其更好地服务于人类。此外,MPO的元学习思想也可以应用于其他机器学习任务,例如元学习推荐系统、元学习图像分类等。
📄 摘要(原文)
Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, from essay writing to mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and data can be accessed at: https://github.com/minnesotanlp/mpo