Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles

作者: Yuanzhao Zhai, Han Zhang, Yu Lei, Yue Yu, Kele Xu, Dawei Feng, Bo Ding, Huaimin Wang

分类: cs.LG

发布日期: 2023-12-30

备注: 10 pages, 5 figures,

💡 一句话要点

提出UP-RLHF，通过不确定性惩罚缓解RLHF中的过优化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: RLHF 强化学习 人类反馈 过优化 不确定性量化 LoRA集成 奖励模型 策略对齐

📋 核心要点

RLHF在对齐大型语言模型方面有潜力，但过度优化导致奖励升高但人类偏好下降。
提出UP-RLHF，通过在RL微调中引入不确定性正则化来缓解过优化问题。
实验表明，多样化的奖励LoRA集成能有效量化奖励不确定性，UP-RLHF能有效缓解过优化。

📝 摘要（中文）

本文提出了一种基于人类反馈的不确定性惩罚强化学习方法（UP-RLHF），旨在解决RLHF中常见的过优化问题。作者观察到现有RLHF方法中常用的KL正则化存在不足。为了克服这一限制，作者深入研究了离线数据集中的RLHF目标，并在RL微调过程中引入了不确定性正则化。为了增强奖励模型的不确定性量化能力，作者首先提出了一种多样化的低秩适应（LoRA）集成方法，通过最大化LoRA矩阵连接的核范数来实现。然后，利用多样化的奖励LoRA集成提供的奖励和不确定性，优化带有惩罚奖励的策略模型。基于两个真实人类偏好数据集的实验结果表明，多样化的奖励LoRA集成在量化奖励不确定性方面是有效的。此外，UP-RLHF中的不确定性正则化在缓解过优化方面起着关键作用，从而有助于提高整体性能。

🔬 方法详解

问题定义：RLHF旨在通过人类反馈来对齐大型语言模型，但常见的过优化问题导致模型过度追求高奖励，反而降低了人类偏好。现有方法通常采用KL散度正则化来约束策略更新，但这种方法在缓解过优化方面存在局限性。

核心思路：核心思路是在RL微调过程中引入不确定性惩罚，即在奖励信号中减去一个与奖励模型不确定性相关的项。这样，模型在追求高奖励的同时，也会避免进入奖励模型不确定性高的区域，从而缓解过优化问题。为了更准确地估计奖励模型的不确定性，采用了多样化的LoRA集成。

技术框架：UP-RLHF的整体框架包括以下几个主要阶段：1) 训练一个或多个奖励模型，这些模型能够预测给定文本序列的人类偏好得分。2) 构建多样化的LoRA集成，用于量化奖励模型的不确定性。3) 使用强化学习算法（如PPO）微调策略模型，目标是最大化带有不确定性惩罚的奖励。

关键创新：主要创新点在于：1) 提出了不确定性惩罚的RLHF方法，通过直接惩罚奖励模型的不确定性来缓解过优化。2) 提出了多样化的LoRA集成方法，通过最大化LoRA矩阵连接的核范数来增强不确定性量化能力。与现有方法相比，UP-RLHF直接针对奖励模型的不确定性进行建模和惩罚，而不是仅仅依赖于KL散度正则化。

关键设计：1) 多样化LoRA集成：通过最大化LoRA矩阵连接的核范数来保证LoRA集成的多样性。具体而言，目标函数包含一个核范数项，鼓励LoRA矩阵之间的差异。2) 不确定性惩罚：奖励信号被修改为R(s, a) - λ * Uncertainty(s, a)，其中R(s, a)是原始奖励，Uncertainty(s, a)是奖励模型的不确定性估计，λ是一个超参数，控制不确定性惩罚的强度。不确定性通过LoRA集成预测方差估计。

📊 实验亮点

实验结果表明，UP-RLHF在两个真实的人类偏好数据集上均取得了显著的性能提升。多样化的奖励LoRA集成能够有效量化奖励不确定性，并且不确定性正则化在缓解过优化方面起着关键作用。具体性能数据未知，但论文强调了UP-RLHF在整体性能上的贡献。

🎯 应用场景

UP-RLHF可应用于各种需要从人类反馈中学习的场景，例如对话系统、文本生成、代码生成等。通过缓解过优化问题，可以训练出更符合人类偏好、更安全可靠的AI系统。该方法在医疗、金融等高风险领域具有潜在应用价值，可以降低AI系统产生不良行为的风险。

📄 摘要（原文）

Reinforcement learning from human feedback (RLHF) emerges as a promising paradigm for aligning large language models (LLMs). However, a notable challenge in RLHF is overoptimization, where beyond a certain threshold, the pursuit of higher rewards leads to a decline in human preferences. In this paper, we observe the weakness of KL regularization which is commonly employed in existing RLHF methods to address overoptimization. To mitigate this limitation, we scrutinize the RLHF objective in the offline dataset and propose uncertainty-penalized RLHF (UP-RLHF), which incorporates uncertainty regularization during RL-finetuning. To enhance the uncertainty quantification abilities for reward models, we first propose a diverse low-rank adaptation (LoRA) ensemble by maximizing the nuclear norm of LoRA matrix concatenations. Then we optimize policy models utilizing penalized rewards, determined by both rewards and uncertainties provided by the diverse reward LoRA ensembles. Our experimental results, based on two real human preference datasets, showcase the effectiveness of diverse reward LoRA ensembles in quantifying reward uncertainty. Additionally, uncertainty regularization in UP-RLHF proves to be pivotal in mitigating overoptimization, thereby contributing to the overall performance.

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册